Kyle Corbitt による Agent.exe のリリースは、AIエージェントにコンピュータの制御を許可することの影響について、テクノロジーコミュニティで活発な議論を引き起こしています。この単純な Electron アプリは、 Claude 3.5 Sonnet がユーザーのコンピュータと直接対話することを可能にし、現在のAIコンピュータ制御機能の可能性と限界の両方を明らかにしています。
AIによるコンピューター制御を可能にするソフトウェアの開発と機能を紹介する Agentexe の GitHub リポジトリ |
初期ユーザーの体験とコスト
初期採用者からは、このツールに関して様々な結果が報告されています。あるユーザーの航空券予約の試みでは、APIクレジットで0.38ドルのコストがかかり、約20秒を要しましたが、アプリケーションウィンドウが画面の一部を遮ったため、 Claude が誤った日付で予約してしまいました。別のユーザーの Amazon での靴下のカート追加は部分的に成功しましたが、インターフェース要素が隠れていた場合、AIは自身の操作を確認するのに苦労しました。
操作コストは、単純なタスクで0.02ドル、より複雑な操作で約0.38ドルとなり、継続的に使用した場合、時間あたり70ドルまで上昇する可能性があります。しかし、多くのユーザーは、現在のエラー率の高さを考慮すると、現在の価格対性能比では日常的な使用には実用的でないと主張しています。
技術的な制限と特徴
以下のような注目すべき制限が明らかになっています:
- プライマリディスプレイでのみ動作
- 特に Windows 環境で画面座標のずれが発生
- アプリケーションウィンドウ自体がAIの基礎的なインターフェースとの対話を妨げる
- アクションごとに数秒かかる顕著な遅さ
興味深いことに、ユーザーたちは Claude が他のブラウザよりも Firefox を明確に好む傾向があり、 Firefox が利用可能な場合により確実に動作することを観察しています。また、AIはデモ中に Yellowstone National Park の写真を閲覧するために休憩を取るなど、予期せぬ行動を示しています。
セキュリティの懸念
AIに直接的なコンピュータ制御を許可することのセキュリティ上の影響は、コミュニティで重大な懸念を引き起こしています。現在のツールの遅い動作は人間による監視を通じて一定の安全性を提供していますが、専門家は以下のような潜在的なリスクを警告しています:
- スクリーンショットを通じた機密情報への不正アクセス
- AIの能力が向上した場合の悪意ある行動の可能性
- Anthropic のサーバーに送信されるデータに関するプライバシーの懸念
- 適切な分離とサンドボックス化の必要性
将来への影響
現在の制限により、このツールは実用的なソリューションというよりも概念実証的なものですが、人間とAIの相互作用における重要な一歩を表しています。一部のユーザーは、その機能を探求しながらセキュリティリスクを軽減するため、仮想マシンでの実行や制限付きの権限での使用を提案しています。
開発者はこれらの懸念を認識しており、このプロジェクトは Claude の新しいコンピュータ使用APIを試験的に使用するため、わずか6時間で作成されたと述べています。プルリクエストは歓迎されていますが、プロジェクトの今後の開発の方向性は不確実なままです。
注:このツールの使用を検討するユーザーは、インストール前にセキュリティ上の影響を慎重に検討する必要があります。