AIの視覚認識能力を巧みに実証する試みとして、ある開発者が最近、システィーナ礼拝堂の煙突から白い煙が出るのを自動的に検出するテストを作成し、新しい教皇の選出を知らせることに成功しました。適切にも「スモークテスト」と名付けられたこのテストは、従来の画像分析手法ではなく、視覚的評価を通じてAIがリアルタイムイベントモニタリングにどのように活用できるかを示しています。
AI視覚テストが従来の画像分析に取って代わる
開発者は、 Vatican のシスティーナ礼拝堂の煙突のライブ YouTube フィードに接続するAIテストフレームワークを使用してテストスクリプトを作成しました。煙の色を検出するための複雑な画像処理アルゴリズムを実装する代わりに、このシステムは単純なプロンプトを通じてAIの視覚認識能力を活用しています。このテストは、教皇選出の成功を示す白い煙が現れた場合にのみパスし、煙が黒いか存在しない場合は失敗するように設計されました。開発者のコメントによると、煙が出始めた瞬間にテストがパスし、リアルタイムで選出を確認したとのことです。
このアプローチは、プロンプトエンジニアリングが従来のコンピュータビジョン技術に代わるよりシンプルな選択肢を提供できることを示しています。自然言語のアサーションを通じて特定の条件を視覚的に評価するようAIに指示することで、開発者はカスタム画像分析ソリューションを構築する複雑さを回避できます。
テスト実装の詳細:
- フレームワーク: カスタム AI テストフレームワーク
- タイムアウト: 60,000ミリ秒(1分)
- 使用された AI モデル: Gemini 、 GPT-4o を含む複数のモデルをテスト
- コスト: 2日間のモニタリングで0.29米ドル
- アプローチ: 従来の画像分析ではなく AI による視覚的検証
- リポジトリ: GitHub で利用可能( donobu-papal-election-tests )
コスト効率の高いマルチモーダルAIアプリケーション
この実装の特に興味深い側面の一つは、そのコスト効率の高さです。 Google の Flash 2.0 を使用してテストを実行するためのAPI費用について尋ねられた開発者は、2日間のモニタリングでわずか0.29米ドルを費やしたと報告しています。この最小限の支出は、イベントモニタリングのような特殊なユースケースでさえ、高度なAI機能がいかにアクセスしやすくなったかを強調しています。
複数のコメンテーターが、このようなアプリケーションの将来の可能性について議論し、オンプレミスのマルチモーダルAIモデルがこれらの実装を劇的に改善するだろうと提案しています。開発者はデスクトップアプリケーションを含むローカルファーストのアプローチで、この未来に備えていることを確認し、レイテンシーと処理要件がリアルタイムの視覚評価タスクに対する考慮事項であり続けることを示しています。
「AIがあなたのコードとブラウザを見て Playwright スクリプトを書く代わりに、AIが直接ブラウザを制御してテストをアサートしています。」
このテストは、実用的なアプリケーションであると同時に、巧みな言葉遊びでもあります。ソフトウェア開発では、スモークテストは通常、基本的な機能を検証するための予備テストを指します。ここでは、テストが実際に煙をモニタリングするため、その用語は文字通りの意味を持ち、開発者コミュニティに共感を呼ぶ面白い技術的な言葉遊びを生み出しています。
一部のコメンテーターは、スマートフォンでニュース通知をモニタリングするなどのよりシンプルな代替案を提案しましたが、AIベースのアプローチは、視覚認識が最小限の開発努力で実世界のイベントにどのように適用できるかを示し、視覚的モニタリングとイベント検出を必要とする他の領域での同様のアプリケーションへの扉を開く可能性があります。