Sesame のオープンソース CSM 音声モデル、デモの期待に届かず

BigGo Editorial Team

Sesame AI は最近、会話音声モデル（CSM）をオープンソース化しましたが、このリリースは開発者コミュニティ全体に失望を引き起こしています。同社は以前に印象的なインタラクティブ音声デモを披露していましたが、多くのユーザーは公開された10億パラメータのモデルが、デモで示されたものよりもかなり能力が劣ることを発見しています。

約束された技術の簡略版

オープンソース化された CSM は、 Llama をバックボーンとし、Mimi オーディオコードを生成する小型のオーディオデコーダーを備えた音声生成モデルです。技術的には機能しますが、コミュニティからのフィードバックによると、 Sesame の洗練されたデモと比較して大きな制限があることが示されています。複数のコメンターがこのリリースを「ラグプル（騙し）」と表現し、 Sesame が意図的に機能を制限したバージョンの技術をリリースしたことを示唆しています。

「結局これはラグプルだった。彼らは実際のデモで使用している Sesame ではなく、機能制限版（1B）をオープンソース化した。」

このモデルは CUDA 互換の GPU を必要とし、CUDA 12.4 および 12.6 でテストされており、Python 3.10 が推奨されています。テキスト入力から音声を生成でき、会話のコンテキストが提供されると最も効果的に機能しますが、ユーザーによると品質とパフォーマンスは期待を大幅に下回ると報告されています。

CSMモデルの要件

CUDA対応GPU
CUDA 12.4および12.6でテスト済み
Python 3.10推奨
Hugging Faceモデルへのアクセス：
- Llama-3.2-1B
- CSM-1B

コミュニティから報告された問題点

商用の代替品と比較して著しく遅い
Sesameのデモで示されたものより品質が低い出力
完全なソリューションではない（音声生成のみ）
完全な音声アシスタントを構築するには追加コンポーネントが必要
一部の実装では音声出力に不自然な間が発生する

パフォーマンスと使いやすさの懸念

モデルの実装を試みたユーザーは重大な問題に遭遇しています。生成プロセスは非常に遅く、出力品質はテストしたコミュニティメンバーによって最適ではないと表現されています。あるユーザーは、これらの制限について詳細に議論されている GitHub の問題（#80）を具体的に参照しました。

一部の開発者は、 Mac ユーザー向けの Python ライブラリなど、アクセシビリティを向上させるための代替実装を作成しています。しかし、これらの実装でさえ、出力に数秒の不自然な一時停止を挿入するなどの問題が報告されています。

プライバシーと実用的なアプリケーション

パフォーマンスの問題に加えて、 Sesame のホスティングソリューションに関するプライバシーの懸念も浮上しています。あるユーザーは、 Sesame の会話を記録して確認するというポリシーにより、彼らのホスティングサービスは完全に使用できないと指摘し、セルフホスティング可能な真に有能なオープンソースの代替手段の潜在的な価値を強調しました。

コミュニティの総意としては、オープンな音声モデルは独自のソリューションと競争する刺激的な機会を表していますが、この特定のリリースはその約束を果たせていないようです。あるコメンターが指摘したように、この基本モデルと Sesame のデモのような洗練された応答性の高い音声アシスタントとの間のギャップは、音声 AI が個々のコンポーネントではなく完全なシステムとして考える必要があることを示しています。

このリリースを取り巻く失望は、独自のオルタナティブに匹敵する品質の、真に有能なオープンソースの音声モデルを提供できる開発者にとって、依然として大きな機会があることを示唆しています。現時点では、自然で応答性の高い音声インタラクションの約束を真に実現するオープンな音声ソリューションの探求は続いています。

参考：CSM（会話音声モデル）ドキュメント