Grok AI がビジョン機能と多言語音声サポートで追いつく

BigGo Editorial Team
Grok AI がビジョン機能と多言語音声サポートで追いつく

AIチャットボットの競争が激化する中、Elon Musk の xAI が Grok プラットフォームに重要な新機能を導入しました。OpenAI の ChatGPT や Google の Gemini といった競合に近づく動きとして、Grok は現在ビジョン機能と強化された音声機能を提供しており、よりインタラクティブで応答性の高いAIアシスタントに向けてまた一歩前進しました。

Grok Vision がビジュアルAI分野に参入

Grok はデバイスのカメラを通して「見る」ことができるAIシステムの仲間入りをしました。新たに導入された Grok Vision により、チャットボットはスマートフォンのカメラを通してキャプチャされた視覚情報をリアルタイムで分析し、応答することができます。2025年4月22日に xAI の開発者 Ebby Amir が発表したこの機能により、ユーザーは単にカメラをオブジェクトやシーンに向けて、Grok に見えるものについて質問することができます。この視覚機能は、Google の Gemini や OpenAI の ChatGPT ですでに利用可能な同様の機能を反映しており、リアルタイムビジョンが高度なAIチャットボットの標準機能になりつつあることを示しています。

多言語音声サポートによるアクセシビリティの拡大

視覚機能に加えて、このアップデートでは Grok に拡張された音声サポートがもたらされました。チャットボットは現在、スペイン語、フランス語、トルコ語、日本語、ヒンディー語を含む複数の言語で音声会話を行うことができます。この多言語対応により、英語を話さないユーザーへのアクセシビリティが大幅に広がり、より国際的に関連性のあるAIアシスタントとしての位置づけが強化されました。音声モードではAIとの自然な会話が可能ですが、他の音声対応チャットボットと同様、ほとんどのユーザーには合成音声の特性が感じられます。

プラットフォームの利用可能性とプレミアム機能

現在、これらの新機能は標準 Grok プランを利用している iOS ユーザーのみが利用可能であり、xAI がアップデートをまずiPhoneユーザーに提供するというパターンに従っています。Android ユーザーは、月額30ドルの SuperGrok プランに加入した場合にのみ、これらの新機能にアクセスできます。プレミアムティアには、音声モードでのリアルタイム検索など、標準提供を超える追加機能も含まれており、有料サブスクライバーに強化された機能を提供しています。

新しい Grok 機能:

  • Grok Vision: リアルタイムカメラベースの視覚分析
  • 多言語音声サポート: スペイン語、フランス語、トルコ語、日本語、ヒンディー語
  • リアルタイム音声検索( SuperGrok 契約者のみ)

プラットフォーム対応状況:

  • iOS: 標準プランですべての機能が利用可能
  • Android: 機能の利用には月額30ドルの SuperGrok サブスクリプションが必要

最近の xAI アップデート:

  • ドキュメントとアプリ作成ツール
  • 会話コンテキストを保持するためのメモリ機能

エージェンシーAIに向けた広範なトレンド

Grok の最新アップデートは、エージェンシーAIとして知られる業界の動向に沿ったものです。これは、環境を感知し、目標を設定し、行動を計画し、最小限の人間のガイダンスで決定を下すことができるシステムです。これは、特定のプロンプトに応答したり、トレーニングデータに基づいてコンテンツを生成したりする初期のAIモデルからの大きな進化を表しています。Google の Gemini 2.0 や OpenAI の Tasks 機能を備えた ChatGPT は、この傾向を示す例であり、生の情報を実用的な洞察に変換し、ユーザーがリマインダーを設定したり、定期的なタスクをスケジュールしたりすることを可能にする機能を提供しています。

xAI の急速な機能開発

xAI における開発のペースは、ここ数ヶ月で特に速くなっています。ビジョンと音声のアップデートの直前に、Grok はドキュメントやアプリを作成するためのツール、そして以前の会話から詳細を思い出すことができるメモリ機能を受け取りました。このメモリ機能により、AIが個々のユーザーとの対話の履歴を構築するにつれて、より文脈に即した関連性の高い応答が可能になります。

会話型AIの未来

Grok、ChatGPT、Gemini のようなAIチャットボットが感覚能力とエージェンシーを獲得し続けるにつれて、2013年の映画「Her」のようなメディアで描かれているAIアシスタントのSF的なビジョンに近づいています。現在の実装ではまだ明らかに人工的な性質が明らかですが、その軌跡は、私たちが言うことだけでなく、私たちが見ることや私たちが活動する文脈も理解できる、ますます自然で役立つAIコンパニオンを示唆しています。ユーザーにとって、これはより直感的で役立つAIアシスタンスを意味し、明示的な指示が少なくて済み、より関連性の高いサポートを提供します。