Meta が V-JEPA 2 ワールドモデルを発表、Nvidia の Cosmos より30倍高速な性能を実現

BigGo 編集部
Meta が V-JEPA 2 ワールドモデルを発表、Nvidia の Cosmos より30倍高速な性能を実現

Meta は最も先進的なワールドモデルを発表し、人工知能が力任せの学習ではなく直感的な推論を通じて物理世界をより良く理解し、ナビゲートできるよう位置づけた。 V-JEPA 2 は、AIエージェントが物理学と空間関係の人間のような理解を発達させる上で大きな飛躍を表している。

革新的なアーキテクチャが直感的な物理理解を可能に

V-JEPA 2 は従来のピクセル予測モデルとは根本的に異なる Joint Embedding Predictive Architecture を採用している。視覚コンテンツを生成するのではなく、システムは動画データ内の根本的な物理学と関係性の理解に焦点を当てている。このアプローチにより、AIエージェントは新しいスキルごとに数百万回の訓練反復を必要とすることなく、重力、運動量、物体の相互作用などの概念を把握できる。

このモデルは複雑なシナリオの予測において驚くべき能力を実証している。例えば、コンロの近くでフライ返しを持っている人が調理された卵を皿に移す可能性が高いことを予測したり、飛び込み競技を行うアスリートの複雑な動きを理解したりできる。これらの予測は、物理世界がどのように動作するかの内部表現を構築するモデルの能力に由来している。

技術アーキテクチャ:

  • モデルタイプ: Joint Embedding Predictive Architecture ( JEPA )
  • 訓練手法:自己教師あり学習
  • 主要コンポーネント: Encoder (生動画を処理) + Predictor (将来の状態を予測)
  • 焦点:ピクセル予測ではなく物理法則と関係性の理解
V-JEPA 2 のアーキテクチャを使用したロボットの行動予測のための視覚データの符号化と処理を示す図
V-JEPA 2 のアーキテクチャを使用したロボットの行動予測のための視覚データの符号化と処理を示す図

大規模な訓練データセットが高度な能力を支える

Meta は自己教師あり学習技術を通じて100万時間以上の動画コンテンツを使用して V-JEPA 2 を訓練した。この広範なデータセットは、モデルが人間と物体の相互作用、物理的な動きのパターン、三次元空間における物体の振る舞いを支配する基本的なルールを理解するのに役立っている。この訓練アプローチは手動でラベル付けされたデータの必要性を排除しながら、物理原理の堅牢な理解を構築している。

モデルのアーキテクチャは2つの主要コンポーネントで構成されている:生の動画入力を処理し意味のある埋め込みを生成するエンコーダーと、これらの埋め込みを使用して将来の状態を予測するプレディクターである。この設計により、システムは実世界のAIアプリケーションにとって重要な時間的ダイナミクスと複雑な動きパターンを理解できる。

競合モデルに対する劇的な性能向上

Meta の内部テストによると、 V-JEPA 2 は様々なタスクにおいてより高い成功率を維持しながら、 Nvidia の Cosmos モデルより30倍速い計画速度を達成している。このモデルはロボティクスアプリケーションにおいて印象的な性能を実証し、到達タスクで100%、把持操作で45%、ピック・アンド・プレース活動で73%の成功率を、広範なロボット固有の訓練データを必要とすることなく達成している。

この性能優位性は、特定のシナリオを記憶するのではなく根本的な物理学を理解するモデルの能力に由来している。従来のAIシステムは新しいタスクごとに大規模なデータセットを必要とすることが多いが、 V-JEPA 2 は最小限の追加訓練で異なるドメインやアプリケーション間でその理解を一般化できる。

パフォーマンス比較:

  • V-JEPA 2 の計画速度: Nvidia Cosmos モデルより30倍高速
  • 訓練データ:100万時間を超える動画コンテンツ
  • ロボットタスク成功率:100%(到達)、45%(把持)、73%(ピック・アンド・プレース)
V-JEPA 2 と Cosmos のステップあたりの計画時間の比較、 V-JEPA 2 の優れた効率性を示している
V-JEPA 2 と Cosmos のステップあたりの計画時間の比較、 V-JEPA 2 の優れた効率性を示している

複数の業界にわたる幅広い応用

Meta は V-JEPA 2 が様々なセクターにわたって変革的なアプリケーションを可能にすることを想定している。この技術は、強化された環境理解を提供することで視覚障害者を支援し、個人化された教育コンテンツを持つより洗練された複合現実体験を強化し、コードの変更がシステム状態にどのように影響するかを真に理解するAIプログラミングアシスタントを改善できる。

自律システムは別の重要な応用分野を表している。自動運転車やロボットシステムは、広範なドメイン固有の訓練なしに複雑な物理的相互作用を予測し理解するモデルの能力から恩恵を受けることができる。 Meta はこの技術が天文学的な量の訓練データを必要とすることなく家庭タスクを実行できる家庭用ロボットの新時代を到来させる可能性があると示唆している。

Franka ロボットアームがタスクを実行している様子で、物理的相互作用とロボティクスにおける V-JEPA 2 の能力を実証している
Franka ロボットアームがタスクを実行している様子で、物理的相互作用とロボティクスにおける V-JEPA 2 の能力を実証している

新しいベンチマークが研究コミュニティを前進させる

モデルのリリースと併せて、 Meta は動画コンテンツから物理原理を理解するAIシステムの能力を研究者が評価するのに役立つ3つの専門ベンチマークテストを導入した。これらには、複雑な合成環境における直感的物理理解をテストする IntPhys 2 、ショートカットを認識する動画質問応答ベンチマーク、物理的に根拠のある因果推論評価のための CausalVQA が含まれる。

これらのベンチマークはワールドモデル開発における進歩を測定する標準化された方法を提供し、異なる研究努力間で一貫した評価基準を確保している。これらのツールは、機械がどのように物理世界をより良く理解し相互作用できるかの理解を前進させるため、より広いAIコミュニティを支援するだろう。

新しいベンチマークテスト:

  • IntPhys 2: 複雑な合成環境における直感的物理理解をテスト
  • Shortcut-aware Video-QA: 最小限の動画ペアによる物理的理解
  • CausalVQA: 動画モデルのための物理的根拠に基づく因果推論

Meta のAI拡張の中での戦略的タイミング

V-JEPA 2 の発表は、 Meta がAI研究能力を大幅に拡張している中で行われた。最近の報告によると、同社は新しいAI研究所を設立しており、 Scale AI の49%株式を取得するために148億米ドルを投じることを約束している。新しいモデルの宣伝における主任AI科学者 Yann LeCun の顕著な役割は、 Meta が拡張するチームにトップタレントを引き付けながら、先進的なAI研究のリーダーとして積極的に自らを位置づけていることを示唆している。

ワールドモデルへのこの戦略的推進は、人間と同じように自然に物理世界について推論し相互作用できるシステムを通じて汎用人工知能を達成するという Meta のより広いビジョンを表している。