Microsoft は、クラシックゲームのレンダリング方法を将来的に変革する可能性を秘めた最新の実験的モデルで、AI駆動型ゲーミングの領域に大胆な一歩を踏み出しました。この技術大手の新しいアプローチは、インタラクティブエンターテイメントにおける生成AIの可能性と現在の限界の両方を示しています。
WHAMM: Microsoft の新しいAIゲーミングモデル
Microsoft は最近、リアルタイムゲームアプリケーション向けに特別に設計された生成AIシステム WHAMM(World and Human Action MaskGIT Model)を発表しました。この新モデルは、2月にリリースされた前身の WHAM-1.6B から大幅に進化しています。WHAMM の能力を最も印象的に示すのは、28年前のクラシックゲーム Quake II のプレイ可能バージョンで、ユーザーは Copilot Labs を通じて直接ウェブブラウザで体験できます。この技術はまだ実験段階ですが、AIがプレイヤーの操作に基づいてリアルタイムで視覚コンテンツを生成することで、将来的にゲーム体験をどのように変革する可能性があるかを示しています。
![]() |
---|
Quake II でのリアルタイムゲーム生成のための WHAMM AI インターフェース |
WHAMM の背後にある技術革新
WHAMM における重要な技術革新は、トークンを順次生成する従来の自己回帰モデルからの脱却にあります。代わりに、WHAMM は MaskGIT スタイルのアーキテクチャを採用し、フレームのすべての画像トークンを並行して生成できます。このアーキテクチャの変更により、必要なフォワードパスの数が大幅に削減され、要素間の依存関係が減少し、リアルタイムの応答性に近づく高速な視覚出力が可能になりました。解像度も以前のモデルの 300 x 180 ピクセルから、より詳細な 640 x 360 ピクセルに向上し、同じ基本的なエンコーダ-デコーダアーキテクチャを維持しながら、より鮮明な視覚効果を提供します。
![]() |
---|
WHAM モデルの革新的な設計を示す技術アーキテクチャ |
加速されたトレーニングプロセス
おそらく最も注目すべきは、WHAMM に必要なトレーニング時間の劇的な短縮です。以前の WHAM-1.6B モデルがトレーニングに7年分のゲームプレイデータを必要としたのに対し、開発者たちは WHAMM を1週間強の厳選された Quake II のゲームプレイを使って教育しました。この効率性は、ゲームの単一レベルだけに焦点を当てたプロのゲームテスターからのデータを活用することで達成されました。これはAIモデルトレーニングの効率性における大きな進歩を表し、将来的に同様のシステムの開発をより実用的にする可能性があります。
現在の限界とユーザー体験
これらの進歩にもかかわらず、WHAMM は依然として実験段階にあります。デモは非常に低いフレームレートで動作し、10フレーム台前半から中盤程度にしか達せず、目立った入力ラグに悩まされています。Microsoft はこのデモを完成したゲーム製品ではなく、技術的なショーケースとして見るべきだと強調しています。プレイヤーは射撃、ジャンプ、しゃがみ、敵との対話などの基本的なアクションを実行できますが、体験は多くの制限によって妨げられています。敵との相互作用はぼやけて見え、体力追跡やダメージ統計はしばしば不正確で、モデルはコンテキスト長に制限があり、プレイヤーの視界から0.9秒以上離れるとオブジェクトを忘れてしまいます。さらに、デモは単一のレベルに限定されており、それ以上進もうとすると、記録されたトレーニングデータの不足により画像生成がフリーズします。
WHAMM 技術仕様:
- 解像度: 640 x 360 ピクセル(以前のモデルの300 x 180から向上)
- アーキテクチャ: MaskGIT スタイルの並列トークン生成
- トレーニングデータ: 厳選された1週間分の Quake II ゲームプレイ(以前のモデルの7年分から削減)
- 現在の制限: 低フレームレート(10台前半〜中盤のFPS)、高い入力ラグ、限られたコンテキストメモリ(0.9秒)、単一レベルに限定
クリエイティブ産業におけるAI:強化か置き換えか
WHAMM は、クリエイティブ産業におけるAIの役割に関するより広範な議論の中で登場しています。OpenAI のジブリ風AI作品のような最近の論争は、AIが本当に人間の芸術性を複製できるかどうかについての公衆の懐疑心を浮き彫りにしました。Microsoft は WHAMM を人間の創造性の代替ではなく、それを強化するツールとして位置づけています。これは、 inZOI のようなゲームでリアルなNPCを強化する Nvidia の ACE テクノロジーと似た哲学です。理想的な実装では、AIはクリエイティブな作品を置き換えるのではなく強化し、ゲームを魅力的にする人間らしさを保ちながら動的要素を追加することになるでしょう。
インタラクティブメディアの将来への影響
将来を見据えると、Microsoft は WHAMM や同様のテクノロジーが全く新しい形式のインタラクティブメディアを可能にすると構想しています。完全にAIで生成されたゲームは、すぐに実現するというよりは将来の展望ですが、WHAMM のようなイノベーションは、それらが今後数年以内に登場する可能性を示唆しています。将来のバージョンでは、現在の欠点に対処しながら、ゲーム開発者がAI駆動ツールによって強化されたよりイマーシブなナラティブを作成できるようになるでしょう。このテクノロジーは、生成AIがゲームの見た目だけでなく、ゲームの基本的な機能やプレイヤーの行動への反応をどのように変革する可能性があるかについての興味深い一端を示しています。