Meta が Llama 3.2 を発表:マルチモーダル機能と音声統合による AI の飛躍的進歩

BigGo Editorial Team
Meta が Llama 3.2 を発表:マルチモーダル機能と音声統合による AI の飛躍的進歩

Meta は、 Meta Connect 2024 で Llama 3.2 を発表し、印象的な新機能と能力を披露することで、人工知能の分野で大きな進歩を遂げました。

マルチモーダルの習得

Llama 3.2 は Meta の AI 技術の大きな進化を表しており、テキストと画像の両方を理解し、相互作用できるマルチモーダル機能を導入しています。この進歩により、 Meta のアプリケーションスイート全体でより自然で多用途な AI インタラクションが可能になります。

音声統合:次のフロンティア

おそらく最も注目すべきアップグレードは、 Meta AI への音声機能の統合です。ユーザーは今や WhatsApp 、 Facebook 、 Instagram 、 Messenger で AI アシスタントと音声会話を行うことができます。 Meta の CEO である Mark Zuckerberg は、 AI との音声対話がテキストベースのチャットボットよりも重要になり、ユーザーが AI とどのように対話するかを革新する可能性があると考えています。

タッチスクリーンディスプレイ上で Meta AI と音声で対話している様子。新しい音声統合機能を表現しています。
タッチスクリーンディスプレイ上で Meta AI と音声で対話している様子。新しい音声統合機能を表現しています。

有名人の声とパーソナライゼーション

スター性を加えるため、 Meta はユーザーが John Cena 、 Judi Dench 、 Kristen Bell などの有名人の声で AI アシスタントをカスタマイズできる機能を提供しています。この機能は、 AI との対話をより魅力的でパーソナライズされたものにすることを目指しています。

AI Studio とディープフェイクの可能性

Meta の AI Studio がアップグレードされ、より本物らしい AI アバターを作成できるようになり、実在の人物を驚くほど正確に模倣したビデオ応答を生成する能力を示しています。印象的ではありますが、この技術は説得力のあるディープフェイクを作成する可能性があるため、悪用の懸念を引き起こしています。

翻訳と吹き替えのブレークスルー

英語とスペイン語の Reels の自動ビデオ吹き替えは、 Meta の高度な口の動きの同期と顔のアニメーション技術を示しています。この機能により、コンテンツクリエイターは自然な外見を維持しながら、ビデオを自動的に翻訳・吹き替えすることで、より広い視聴者にリーチすることができます。

オープンソースとオンデバイスモデル

Meta は、オンデバイス使用に最適化された小規模な1Bおよび3Bパラメーターモデルをオープンソース化することで、 Llama を AI 業界の Linux として位置付けています。この動きにより、開発者はより安全で特化した AI アプリケーションを作成できるようになる可能性があります。

Meta が AI 技術の境界を押し広げ続ける中、同社は AI アシスタント分野の主要プレイヤーとしての地位を確立しつつあります。月間アクティブユーザー数が約5億人に達する Meta AI は、世界で最も広く使用される AI アシスタントの1つになる軌道に乗っています。しかし、これらの高度な機能へのアクセスの容易さが、その広範な採用と日常のデジタル対話への影響を決定する上で重要になるでしょう。