Microsoftのポケットサイズ画像認識AI：Phi-3-vision

BigGo Editorial Team

Microsoftが新たな画像認識AI「Phi-3-vision」を発表：ポケットサイズの画像分析技術

Microsoftは、小規模言語モデルのPhi-3ファミリーに新たな仲間を加えました。その名も「Phi-3-vision」です。この革新的なAIモデルは、強力な画像分析機能をモバイルデバイスにもたらし、高度なAIを日常のガジェットでアクセス可能にする重要な一歩を記しました。


Microsoftが携帯デバイス向けAI画像分析ツールPhi-3-visionを発表し、イノベーションへの取り組みを示す

Phi-3-visionの主な特徴：

マルチモーダル機能：テキストのみの兄弟モデルとは異なり、Phi-3-visionはテキストと画像の両方を処理できます。
コンパクトサイズ：42億のパラメーターを持ち、モバイルデバイスで効率的に動作するよう設計されています。
視覚的推論：画像、チャート、その他の視覚的コンテンツの分析に優れています。
質問応答：ユーザーは画像について質問し、洞察に富んだ回答を得ることができます。

成長するPhi-3ファミリー

Phi-3-visionは、Microsoftの次第に能力を増す小規模言語モデルのラインナップに加わります：

Phi-3-mini：38億パラメーター
Phi-3-vision：42億パラメーター
Phi-3-small：70億パラメーター
Phi-3-medium：140億パラメーター

小規模モデルが重要な理由

より小さく、より効率的なAIモデルへの傾向が勢いを増しています。これらのコンパクトなパワーハウスには以下のような利点があります：

リソース効率：より少ない処理能力とメモリで動作します。
モバイルフレンドリー：スマートフォンやタブレットで直接実行できます。
コスト効果：計算需要が低いため、運用コストが削減されます。

Microsoftはすでにこのアプローチで成功を収めています。同社の別の小規模AI、Orca-Mathモデルは、複雑な数学的問題の解決において、より大規模な競合モデルを上回る性能を示したと報告されています。

利用可能性

Phi-3-visionは現在プレビュー版として利用可能です。
Phi-3ファミリーの残り（mini、small、medium）はAzureのモデルライブラリからアクセスできます。

Phi-3-visionはDALL-EやStable Diffusionのように画像を生成することはできませんが、視覚的コンテンツを理解し分析する能力は、モバイルAIアプリケーションに興味深い可能性をもたらします。MicrosoftがコンパクトなAIモデルの可能性の限界を押し広げ続ける中、私たちは日常のデバイスでますます洗練されたAI機能を目にすることになるでしょう。