Meta の FAIR(Facebook AI Research)が最近発表した論文「LLMs can see and hear without any training」(LLMはトレーニングなしで見たり聞いたりできる)が、AIコミュニティ内で大きな議論を巻き起こしています。この論文では、言語モデルがこれらのモダリティに特化したトレーニングなしに、画像、音声、動画のキャプション生成などのマルチモーダルタスクを実行できるようにする MILS という手法を紹介しています。しかし、コミュニティの反応を見ると、タイトルは実際の技術的成果よりも挑発的である可能性が示唆されています。
別名のActor-Critic アーキテクチャ
MILS の核心部分は、コミュニティの多くがすぐに Actor-Critic のセットアップとして認識したものですが、興味深いことに、この用語は論文自体には出てきません。このシステムは、LLM(ジェネレーター)と CLIP のようなスコアラーを使用し、LLM がキャプションを生成し、事前訓練されたスコアリングモデルからフィードバックを受け取る反復プロセスを採用しています。
「そう、彼らは明らかに新しい名前を開発しました:ジェネレーターとスコアラー。これは少し Tai's Model のように感じます」
このアプローチは、確立された概念に新しい用語をつける Tai's Model 現象と比較されています。コミュニティは、この方法は賢いものの、論文の枠組みは実際よりも多くの新規性を示唆していると指摘しています。
MILS システムの主要コンポーネント
- ジェネレーター:キャプションや説明を生成する LLM(具体的には 8B Llama モデル)
- スコアラー: CLIP のような事前訓練されたモデルで、ジェネレーターの出力を評価する
- ワークフロー:LLM がスコアラーからのフィードバックに基づいて出力を改善する反復プロセス
論文で実証されたタスク
- 画像キャプション生成
- 音声キャプション生成
- 動画キャプション生成
- 高品質な画像生成
- スタイル転送
- クロスモーダル演算
タイトルと現実:主張を理解する
多くのコメンターは論文のタイトルに異議を唱え、実際に起こっていることを誤って表現していると示唆しています。このシステムは、タイトルが暗示するような方法で LLM が本当に見たり聞いたりできるようにするわけではありません。むしろ、LLM が視覚的または音声データでトレーニングされたモデルからのスコアに基づいて、反復的に出力を改善するフィードバックループを作成します。
このアプローチは、目の見えない人が「マルコポーロ」ゲームをプレイするのに少し似ています。彼らは「温かい」または「冷たい」というフィードバックに基づいて目標に向かって進みます。LLM は視覚的または音声入力を直接処理するのではなく、その推測に関するテキストフィードバックを使用して適切な説明に収束します。
創発的能力か巧妙なエンジニアリングか
論文の擁護者の中には、このアプローチが LLM の創発的能力を示していると強調する人もいます。言語モデルは視覚モデルからのフィードバックを解釈し、それに応じて調整するように明示的にトレーニングされていないため、そうする能力は創発的特性と見なすことができます。LLM は、トレーニングデータにこの特定のタスクの例がなくても、正しい説明に向かって効果的に道を見つけています。
しかし、批評家は、このシステムが依然として CLIP のような事前訓練されたマルチモーダルモデルに大きく依存していると指摘しています。これらのモデルは確かに膨大な量の視覚データでトレーニングされています。議論の中心は、システムが他のトレーニングされたコンポーネントに依存している場合、「トレーニングなし」という特徴付けが正確かどうかということです。
AI能力の擬人化
コメントで繰り返されるテーマは、AIシステムを説明するために使用される擬人化言語に関する懸念です。一部のコメンターは、トレーニングやコードなしで暗闇を「見る」ことができるフォトレジスタや温度を「感じる」ことができるサーモスタットのような単純なデバイスとの風刺的な類似点を描いています。
これらの類推は明らかに誇張されていますが、AIの研究がどのように伝えられるかについての正当な懸念を浮き彫りにしています。「見る」や「聞く」などの人間のような用語の使用は、これらのシステムが実際に何をしているのか、そしてそれらがどのように機能するのかについての誤解を生む可能性があります。
この論文に対するコミュニティの反応は、注目を集める見出しを作り出す圧力が時に正確な技術的説明と衝突するAI研究コミュニケーションにおけるより広範な緊張を反映しています。大規模な研究所が注目と資金調達を競い合う中、AI能力がどのように枠組みされるかについて不必要な誇張に関する懸念が高まっています。
これらの批判にもかかわらず、論文で説明されている技術的アプローチは、タスク固有の微調整なしにマルチモーダルタスクでLLMを活用するための興味深い方法を表しています。たとえ「トレーニングなし」という主張が大幅な限定を必要とするとしても。
参考文献: LLMs can see and hear without any training
![]() |
---|
Meta の MILS プロジェクトの GitHub リポジトリ。LLM の能力に関する議論を呼んだ主張の技術的基盤を示している |