Morphik:技術文書向けオープンソースRAG代替ツールがセルフホスティング論争を引き起こす

BigGo Editorial Team
Morphik:技術文書向けオープンソースRAG代替ツールがセルフホスティング論争を引き起こす

Morphik は、高度に技術的かつ視覚的な文書向けに特別に設計された、従来の検索拡張生成(RAG)システムに代わる有望な選択肢として登場しました。このプラットフォームは、特にそのオープンソースの性質とセルフホスティング機能に関して、開発者コミュニティ内で大きな議論を巻き起こしています。

オープンソースと有料機能の明確化

Morphik のライセンスモデルは、コミュニティ議論の焦点となっています。MIT Expatライセンスの下でオープンソースとして宣伝されていますが、ユーザーはライセンス構造にいくつかのニュアンスがあることを指摘しています。API、SDK、バックエンドロジックを含む中核機能は確かにMITライセンスですが、Morphik Console UIなどの特定の機能は、異なるライセンス条件を持つエンタープライズ(ee)名前空間の一部です。

あるコミュニティメンバーがこの不一致を指摘し、Morphik の代表者から次のような説明がありました:

「もっと明確にすべきでした。ee部分は私たちのUIであり、テストや開発環境で使用できます。API、SDK、およびバックエンドロジック全体を含む主要コードはMIT expatです。」

この区別は、どのコンポーネントが自由に使用および修正できるか、また商用ライセンスが必要かに影響するため、導入を検討している開発者にとって重要です。

Morphikの主要機能

  • マルチモーダル検索: ColPaliのような技術を使用して文書内の視覚的コンテンツを理解
  • ナレッジグラフ: カスタマイズ可能なシステムプロンプトを持つドメイン固有のナレッジグラフを構築
  • メタデータ抽出: バウンディングボックス、ラベル、分類などのメタデータを抽出
  • インテグレーション: Google Suite、Slack、Confluence、その他のツールと連携
  • キャッシュ拡張生成: 生成を高速化するための永続的なKVキャッシュを作成

ライセンス構造

  • MIT Expatライセンス: コア機能、API、SDK、バックエンドロジック
  • エンタープライズライセンス: UIコンポーネント( Morphik Console)および「ee」名前空間内の機能

デプロイメントオプション

  • クラウドサービス: 200ページと100クエリの無料枠、その後は従量課金制
  • セルフホスト: 直接またはDockerを介してインストール可能、限定的なサポートあり
  • ローカル推論: Ollamaと互換性あり、推奨モデルには Llama 3.2 8B 以上を含む

セルフホスティング機能と要件

コミュニティ議論の大部分は、セルフホスティングオプションに集中しています。多くの開発者は、特に機密文書を扱う場合、クラウドバージョンを使用するのではなく、Morphik をローカルで実行することに関心を示しています。このプラットフォームは推論に Ollama を使用して完全にローカルで実行できますが、パフォーマンスはハードウェアと使用するモデルに依存します。

技術文書に最適な結果を得るために、コミュニティのフィードバックは Llama 3.2 8B などの大規模モデルの使用を提案しており、複雑な文書処理にはより大きなモデルが良いというのが一般的な見解です。ただし、Morphik のセルフホスティングに関する具体的な計算要件とスケーリング制限は、多くの潜在的ユーザーにとって依然として疑問点です。

あるユーザーは特に「すべての私的文書をデータベースにダンプし、LLMバックエンドに依存しない方法で、ローカルで検索/RAGが機能する方法が欲しい」と述べており、プライバシーを保護するローカルソリューションへの一般的な要望を強調しています。

技術的能力とユースケース

Morphik のアーキテクチャは、文書処理へのアプローチで注目を集めています。このプラットフォームは、RAG用にエンティティと関係をナレッジグラフに正規化し、コミュニティメンバーはこれを有望と考えています。通常のOCRとテキスト埋め込みおよび Colpali という二重の取り込み経路は、異なる文書タイプに柔軟性を提供します。

文書処理システムにおける一般的な課題である表の処理は、Morphik によってうまく対応されているようです。開発者のフィードバックによると、Colpali 経路は位置情報やレイアウトもエンコードできるため、表の処理がはるかに優れており、複雑な文書形式に適しています。

ユーザーはまた、会議プレゼンテーションのスライドと学術論文の処理の比較や、PDFからの境界ボックスの抽出など、特殊なユースケースを探索しています。特定のドメイン(製薬など)に対するエンティティ抽出と関係マッピングを調整する能力は、価値ある機能として強調されています。

より単純な文書タイプについては、コミュニティメンバーはベクトルデータベース上に構築された従来のRAGソリューションで十分かもしれないと指摘しており、Morphik は表、画像、複雑なレイアウトを持つ複雑なマルチモーダル文書に最も価値を提供することを示唆しています。

文書処理とRAG技術が進化し続ける中、視覚的および技術的コンテンツを処理する Morphik のアプローチは、複雑な文書をAIシステムにより利用しやすくするという点で興味深い発展を表しています。オープンソースのアクセシビリティと商用機能のバランスは、プラットフォームを特定のニーズに対して評価する潜在的な採用者にとって重要な考慮事項であり続けるでしょう。

参考:morphik

Morphik の GitHub リポジトリのスクリーンショットで、その技術的能力の開発における共同作業を示しています
Morphik の GitHub リポジトリのスクリーンショット。技術的能力の開発における共同作業を示しています