VGGT トランスフォーマーが数秒で画像から3D再構築を作成、多くのワークフローで COLMAP に取って代わる可能性

BigGo Editorial Team

VGGT トランスフォーマーが数秒で画像から3D再構築を作成、多くのワークフローで COLMAP に取って代わる可能性

Facebook Research が新たにリリースした Visual Geometry Grounded Transformer（VGGT）は、通常の写真から迅速に3Dシーンを作成する能力により、3D再構築コミュニティで大きな注目を集めています。広範な処理時間を必要とする従来のフォトグラメトリ手法とは異なり、VGGT はわずか数枚の画像から数秒で詳細な3D再構築を生成できます。


Facebook Research による Visual Geometry Grounded Transformer（VGGT）の GitHub リポジトリのスクリーンショットで、そのオープンソースの性質を示しています

3D再構築へのトランスフォーマーベースのアプローチ

VGGT は従来の3D再構築パイプラインとは大きく異なるアプローチを採用しています。カメラ位置の推定、深度計算、ポイントクラウド生成などの個別の段階に依存するのではなく、VGGT はトランスフォーマーアーキテクチャを通じた単一のフォワードパスですべてを処理します。コミュニティメンバーは、これが業界標準ツールである COLMAP に取って代わる可能性があると指摘しています。COLMAP は精度が高いものの、処理が非常に遅く、多数の高品質画像を必要とすることで知られています。

「これは多くのワークフローに組み込まれ、寄せ集めのパイプラインに取って代わることになるだろう」

このモデルは、フレームごとのアテンションとグローバルアテンションを交互に配置した標準的なトランスフォーマーアーキテクチャを使用し、3Dアノテーション付き画像の膨大なデータセットで訓練されています。特に印象的なのは、VGGT が設計に特殊な3Dの帰納的バイアスを組み込まず、純粋にデータからこれらの関係を学習している点です。

VGGTの主な特徴

カメラパラメータ、深度マップ、ポイントマップ、3Dポイントトラックを直接推論
1枚の画像から数百枚までの幅広い入力に対応
処理時間はミリ秒から数秒の範囲
特殊な3Dネットワークアーキテクチャを必要としない
Co3Dv2、 BlendMVS、 MegaDepth、合成データなど多様なデータセットで訓練
モデルサイズ：10億パラメータ（より小さいバージョンも計画中）
訓練コスト：64台の A100 GPUで9日間（約18,000米ドル）

コミュニティディスカッションから浮かび上がる実用的なアプリケーション

コミュニティディスカッションでは、VGGT の数多くの実用的なアプリケーションが明らかになっています。建築ビジュアライゼーションは主要なユースケースとして際立っており、迅速な3D再構築が住宅リモデリング設計プロセスを劇的に簡素化する可能性があります。医療応用も有望で、あるコメンターは iPhone のような手頃なハードウェアを使用して手術ツールを空間内で追跡する整形外科手術システムの研究について述べています。

おそらく最も興味深いのは、VGGT と最先端のレンダリング技術である Gaussian Splatting との統合の可能性です。複数のコメンターが、VGGT が Gaussian Splatting ワークフロー向けの初期シーン構造を提供し、遅い COLMAP 処理の必要性を排除する可能性があると指摘しています。論文自体が新規ビュー合成のための微調整実験に言及しており、この統合パスがすでに探索されていることを示唆しています。

制限と訓練コスト

印象的な結果にもかかわらず、コミュニティメンバーは、訓練データに登場した可能性のある有名なランドマークと比較して、VGGT の新規シーンでのパフォーマンスについて懐疑的な見方を示しています。デモンストレーションで示されたエジプトのピラミッドやローマのコロッセオの例は、モデルが本当に未知の環境にどの程度一般化できるかという疑問を投げかけました。

VGGT を訓練するために必要な計算リソースは膨大です。論文によると、10億パラメータを持つ最終モデルは64台の NVIDIA A100 GPU で9日間訓練され、商用クラウドプラットフォームでは約1800万円の費用がかかります。これは、一部のコメンターが現代AIの「苦い教訓」と呼ぶものを表しています - 計算とデータのスケーリングが、巧妙なアルゴリズム設計よりも優先されることが多いという事実です。

VGGT パフォーマンスベンチマーク

入力フレーム数	1	2	4	8	10	20	50	100	200
処理時間 (秒)	0.04	0.05	0.07	0.11	0.14	0.31	1.04	3.12	8.75
メモリ使用量 (GB)	1.88	2.07	2.45	3.23	3.63	5.58	11.41	21.15	40.63

単一の NVIDIA H100 GPU 上で Flash Attention 3 を使用してベンチマークを実施

3D再構築の未来

VGGT のリリースは、3D再構築をより身近にする重要なマイルストーンとなります。プロフェッショナルなフォトグラメトリツールはまだ精度の面で優位性を持っていますが、VGGT の速度と使いやすさは、完璧な精度よりも迅速な結果が重要なアプリケーションに新たな可能性を開きます。

あるコメンターは、VGGT を完全に置き換えるのではなく、従来のフォトグラメトリと組み合わせる - AIを使ってスキャンのギャップを埋め、結果を向上させる - 理想的なアプローチかもしれないと提案しています。このハイブリッドアプローチは、完璧なデータの取得が難しいスマートフォンベースの3Dスキャナーにとって特に価値があるでしょう。

消費者向けハードウェアでの微調整実験が始まるにつれて、今後数ヶ月でこの分野での急速なイノベーションが期待でき、ゲームやVRから建築、医療イメージングまで、業界全体のワークフローを変革する可能性があります。

参考: VGGT: Visual Geometry Grounded Transformer