Apple が CA-1M データセットと Cubify Transformer を発表、3D オブジェクト検出技術に対する反応が二分

BigGo Editorial Team
Apple が CA-1M データセットと Cubify Transformer を発表、3D オブジェクト検出技術に対する反応が二分

Apple は室内3Dオブジェクト検出のための包括的なデータセット「CA-1M」と、室内空間のオブジェクトを検出し3Dバウンディングボックスを配置するモデル「Cubify Transformer(CuTR)」をリリースしました。この技術はAR/VRアプリケーションに有望な可能性を示していますが、コミュニティの反応は、その機能に対する期待とライセンス制限に関する懸念の両方を明らかにしています。

CA-1M データセット& Cubify Transformer 概要

  • データセット: CA-1M - クラスに依存しない3Dボックスで徹底的に注釈付け
  • モデル: Cubify Transformer (CuTR) - RGB-DとRGBのみのバリアントが利用可能
  • ライセンス構造:
    • サンプルコード: Apple サンプルコードライセンス
    • データセット: CC-by-NC-ND
    • モデル: Apple ML リサーチモデル利用規約

主な特徴:

  • フレームごとの3Dボックスの正解データ
  • レーザースキャナーに登録された正解ポーズ
  • 512 x 384解像度の正解深度
  • 直立方向のフレーム
  • NeRF Capture アプリを通じてユーザーデバイスからのキャプチャ実行をサポート
ホームデザインと AR アプリケーションのための先進的な3Dオブジェクト検出技術の恩恵を受けることができる室内空間
ホームデザインと AR アプリケーションのための先進的な3Dオブジェクト検出技術の恩恵を受けることができる室内空間

複雑なライセンス構造が混乱を招く

このプロジェクトのライセンスアプローチは、開発者の間で大きな議論を巻き起こしています。Apple は複数階層のライセンス構造を実装しました:サンプルコードは Apple Sample Code License の下、データセットは CC-by-NC-ND の下、モデルは Apple ML Research Model Terms of Use の下にあります。この断片化されたアプローチは、開発者コミュニティから批判を受けています。

「彼らは1つのプロジェクトで3〜4つの異なる(サブ)ライセンスを使って複雑にしすぎています...なぜこれほど混乱させて複雑にするのでしょうか?サードパーティの開発者がアプリを作成し、彼らのプラットフォームでリリースするのに全く役に立ちません。」

特にデータセットに対する Attribution-NonCommercial-NoDerivatives ライセンスは非常に制限的で、潜在的な商業利用を制限しています。一部のコメンターは、このライセンスの複雑さが、この技術のより広範な採用と実験を妨げる可能性があると指摘しています。

技術的性能に関する疑問

Cubify Transformer の技術的性能に関するコミュニティのフィードバックは様々です。一部のユーザーは、特に壁の絵や天井の梁などのオブジェクトに関して、バウンディングボックス検出の精度に問題があると指摘しています。あるコメンターは、モデルが必要な場合でも[回転キューブ]を使用しないことが多く、境界を過大評価してしまうと述べており、システムが適切なオブジェクトの配置に苦戦していることを示唆しています。

興味深いことに、一部の開発者は、深度情報なしでRGBデータのみを使用して iPad 上で実行されるプライベートニューラルネットワークからより良いパフォーマンスを見たと主張しています。これにより、トランスフォーマーベースのアプローチがこの特定のコンピュータビジョンタスクに最適かどうかという疑問が生じています。

ホームデザインのための実用的なアプリケーション

技術的およびライセンスの懸念にもかかわらず、多くのユーザーはこの技術に価値ある潜在的な応用を見ています。最も説得力のあるユースケースの1つは、ホームデザインと家具の配置です。ユーザーは、スマートフォンのカメラと LiDAR を使用して家をスキャンし、家具を仮想的に再配置できる3Dモデルを作成することに関心を示しました。

Scaniverse のような現在のソリューションは完全なメッシュを作成しますが、個々のオブジェクトを分離しないため、仮想的な再配置が困難です。Cubifyのオブジェクト検出アプローチは、空間内の個別のオブジェクトを識別することでこの問題を潜在的に解決できます。

Web技術との統合

コミュニティはすでにこの技術を Web プラットフォームに拡張および統合する方法を模索しています。いくつかのコメンターは、人気のある JavaScript 3D ライブラリである Three.js で USDZ スキャンをレンダリングするためのリソースを共有し、3Dスキャン技術を中心に発展する幅広いエコシステムを示しています。

ビューアーやレンダリングツールの利用可能性は、開発者が3Dオブジェクト検出と視覚化をさまざまなプラットフォームでよりアクセスしやすくするために積極的に取り組んでいることを示しています。

将来の Apple プラットフォーム統合

一部のコメンターは、特に Vision Pro との潜在的な統合について推測しました。あるユーザーは、この技術がすでに Apple の機械学習フレームワークである CoreML の一部になっていないことに驚きを表明し、別のユーザーは今後の WWDC 開発者会議で発表される可能性があると示唆しました。

Apple が拡張現実体験にますます焦点を当てていることを考えると、Cubify Transformer は Apple デバイス上の将来のARアプリケーションのための重要な構成要素となる可能性があり、より洗練された環境理解とオブジェクトインタラクションを可能にする可能性があります。

結論として、Apple の CA-1M データセットと Cubify Transformer 技術は3Dオブジェクト検出を進歩させるための有望な可能性を示していますが、制限的なライセンスと様々なパフォーマンスレビューは、その採用を制限する可能性のある課題を浮き彫りにしています。それにもかかわらず、この技術はAR/VRアプリケーションのためのより洗練された環境理解に向けた重要な一歩を表し、ホームデザイン、ゲーム、複合現実体験に潜在的な影響を与える可能性があります。

参考:CA-1M and Cubify Anything