Qwen2.5-VL モデルがオープンソース OCR ベンチマークでトップに、バウンディングボックス機能で業界を驚かせる

BigGo Editorial Team

Qwen2.5-VL モデルがオープンソース OCR ベンチマークでトップに、バウンディングボックス機能で業界を驚かせる

最近公開された OmniAl OCR ベンチマークが AI コミュニティで大きな議論を巻き起こしており、Alibaba の Qwen2.5-VL モデルが光学式文字認識（OCR）タスクで優れたパフォーマンスを示しています。このベンチマークは、従来の OCR プロバイダーとマルチモーダル言語モデルの両方について、ドキュメントからテキストや構造化データを抽出する能力を評価しています。

Qwen2.5-VL モデルが印象的なパフォーマンスを示す

コミュニティのフィードバックによると、Qwen2.5-VL モデル、特に 32B と 72B のバリエーションは、驚くべき OCR 能力を示しています。これらのモデルはテキスト抽出に優れているだけでなく、バウンディングボックス機能も提供しています—これは一般的なマルチモーダルモデルではなく、専門的な OCR ツールに通常関連付けられる機能です。この機能により、モデルは画像内のテキストの正確な位置を特定できるようになり、検証や修正ワークフローにとって重要です。

「実際、qwen 2.5 はバウンディングボックスを提供するように訓練されています」

このバウンディングボックス機能は大きな進歩を表しており、本番環境での LLM ベースの OCR ソリューションのより広い採用を妨げてきた主要な制限の一つに対処しています。人間による検証が必要なアプリケーションでは、元のドキュメント内でテキストをすばやく見つける能力がワークフローの効率を劇的に向上させます。


テキスト処理方法論と文書評価における機械学習モデルの役割を示すフローチャート

コストとパフォーマンスの考慮事項

コメントで共有されたベンチマークデータによると、モデルは興味深いコストパフォーマンスのトレードオフを示しています。Qwen 32B モデルは1ページあたり約53秒のレイテンシーで1000ページあたり約0.33米ドルでドキュメントを処理し、より大きな Qwen 72B は同様のレイテンシーで1000ページあたり約0.71米ドルのコストがかかります。比較すると、Llama 90B は1000ページあたり8.50米ドルと大幅に高いコストを示しました。

コミュニティは、ホスティングプロバイダーによって価格が大幅に異なる可能性があり、標準化されたコスト比較が難しいと指摘しています。Mistral のようなモデルは、競争力のある料金（1000ページあたり1.00米ドル）で高速な処理（1ページあたり3秒）を提供し、開発者が利用できる多様なオプションを強調しています。

モデルパフォーマンス指標

モデル	コスト（1000ページあたり）	レイテンシー（ページあたり）
Qwen 32B	$0.33	53秒
Qwen 72B	$0.71	51秒
Llama 90B	$8.50	44秒
Llama 11B	$0.21	8秒
Gemma 27B	$0.25	22秒
Mistral	$1.00	3秒

注：コストはホスティングプロバイダーによって異なる場合があります

マルチモーダル AI における競争の激化

コミュニティメンバーは、Qwen モデルがビジョン関連タスクでいかに急速に進歩しているかに驚きを表明しています。複数のユーザーが、最新の Qwen2.5-VL モデルは前モデルを改善するだけでなく、より高い安定性と微調整のしやすさを示していると報告しています。一部のユーザーは、Qwen 2.5 VL 72B モデルが現在、一般的なビジョンタスクにおいて Google の Gemini と競合するレベルに達し、OpenAI の GPT-4o に次ぐ2位に位置すると示唆しています。

特に注目すべきは、これらのモデルをローカルで実行できることであり、独自のソリューションに代わるオープンソースの選択肢を提供しています。このローカル展開オプションは、プライバシー要件を持つアプリケーションや、機密文書を外部 API に送信せずに処理する必要があるアプリケーションにとって特に価値があります。

実用的な応用と限界

ユーザーは、テキスト読み上げ変換用のボードゲームカードからのテキスト抽出やビジネス文書の処理など、さまざまな実用的なアプリケーションでこれらのモデルを使用して成功を収めていると報告しています。しかし、コミュニティの議論では、95％以上の精度を必要とするミッションクリティカルなアプリケーションでは、人間による検証が依然として必要であることも強調されました。

ベンチマーク自体は単純な OCR 評価を超え、モデルがドキュメントから構造化された JSON データを抽出する能力に焦点を当てています—これは OCR 機能と意味理解を組み合わせたタスクです。これは、単にテキストを転写するのではなく、構造化された情報を直接抽出できるエンドツーエンドのドキュメント処理システムへの成長傾向を反映しています。

これらのオープンソースモデルが改善を続けるにつれて、かつては専門的な OCR プロバイダーが支配していたドキュメント処理タスクにおいて、独自のソリューションにますます挑戦しています。ドキュメント自動化に取り組む開発者や企業にとって、これらのモデルの急速な進歩は、より高性能でコスト効率の良いドキュメント処理パイプラインを構築するための有望な新しいオプションを提供しています。

参考: OmniAl OCR Benchmark


ソースドキュメントとそのグラウンドトゥルースの比較、ドキュメント処理における OCR 精度の評価を強調