Dia 1.6B：自然な対話生成と音声制御で印象的なオープンソーステキスト読み上げモデル

BigGo Editorial Team

Dia 1.6B：自然な対話生成と音声制御で印象的なオープンソーステキスト読み上げモデル

Nari Labs は、AIコミュニティで非常に自然な対話を生成する能力で大きな話題を呼んでいるオープンソースのテキスト読み上げモデル Dia-1.6B をリリースしました。このリリースが特に注目に値するのは、わずか2人のエンジニアチームによって3ヶ月間で開発されたにもかかわらず、はるかに大きな企業の製品に匹敵する品質を提供していることです。


Nari Labs によって開発された Dia オープンソース音声合成モデルの GitHub リポジトリ

自然な対話生成

従来のテキスト読み上げ（TTS）モデルが各話者のセリフを個別に生成して後でつなぎ合わせるのとは異なり、Dia は会話全体を一度に生成します。このアプローチにより、適切なペース、重なり、感情の連続性を持つより自然な対話が実現します。コミュニティメンバーは、笑い声、咳、喉のクリアなどの非言語要素を生成するモデルの能力に特に感銘を受けています。

「これは本当に印象的です。私の夢に近づいています：EPUBから適切なオーディオブックを生成する能力です。すべてに対して単一のロボット的な声ではなく、各主人公に異なる一貫した声を与えることができます。」

Dia の出力品質は多くのユーザーを驚かせており、いくつかの例が驚くほど人間らしく聞こえるとのコメントがあります。デモ例にはほぼ演劇的な質感があると指摘するユーザーもおり、あるユーザーはそのスタイルをテレビ番組 The Office のキャラクターに例えています。この観察から、別のコメンターがデモ例の一つが実際にその番組のシーンに基づいていることを発見しました。

音声と感情のコントロール

Dia の際立った特徴は、特定の声や感情のトーンに出力を条件付けできる音声プロンプトのサポートです。サンプル音声クリップを提供することで、ユーザーはモデルに同じスタイルで音声生成を続けさせることができます。この機能により、オーディオブック、ポッドキャスト、その他のクリエイティブなアプリケーションで一貫したキャラクターの声を実現する可能性が広がります。

一部のユーザーは感情制御機能で混合した結果を報告しており、あるユーザーは明るいトーンを指定しようとすると予期せずバックグラウンドミュージックなどのアーティファクトが現れると言及しています。これらの時折の奇妙な動作にもかかわらず、対話全体を通して一貫した声の特性を維持する全体的な能力はうまく機能しているようです。

ハードウェア要件とアクセシビリティ

Dia のフルバージョンは現在、実行に約10GBのVRAMを必要とし、これはより控えめなハードウェアを持つユーザーの手の届かないところにあります。しかし、開発者は将来的に量子化バージョンをリリースする予定を示しており、Suno の Bark モデルが16GBから4GBのVRAMで動作するように進化したのと同様に要件を削減する予定です。

コミュニティメンバーはすでに異なるハードウェア構成のためにモデルを適応させ始めており、あるユーザーは M2 Pro MacBook Pro で正常に動作させることに成功しています。別のユーザーは M4 チップでも動作することを確認しました。開発者は現在GPUサポートが必要ですが、CPUサポートもまもなく追加されると述べています。

Dia-1.6B 技術仕様

モデルサイズ: 16億パラメータ
ハードウェア要件: 約10GB VRAM（GPUが必要）
テスト済みプラットフォーム:
- CUDA 12.6を搭載した NVIDIA GPU
- M2 Pro MacBook Pro（コミュニティによる適応版）
- M4 Apple Silicon
生成速度: A4000 GPUで約40トークン/秒（86トークン = 音声1秒）
主な特徴:
- 直接対話生成（単一の声を繋ぎ合わせたものではない）
- 音声プロンプトによる声/感情のコントロール
- 非言語コミュニケーション（笑い、咳など）
- 複数話者のサポート

開発タイムライン

2人のエンジニアによって作成（1人はフルタイム、1人はパートタイム）
約3ヶ月で開発
開発開始前に音声モデルの経験なし

オープンソースの貢献と将来の開発

Apache License 2.0 の下でリリースされたオープンソースプロジェクトとして、Dia はすでにコミュニティからの貢献を受け始めています。ユーザーは異なるハードウェアプラットフォームとの互換性を向上させるためのプルリクエストを提出しており、一部はDocker実装戦略について議論しています。

開発者は、Dockerサポート、推論速度の最適化、メモリ効率のための量子化など、将来の改善のためのいくつかの分野を概説しています。また、複数のコミュニティメンバーが要求している英語以外の言語サポートの拡張にも関心を示しています。

Dia のリリースは、高度なAI音声合成技術へのアクセスを民主化する上で、もう一つの重要な一歩を表しています。Nari Labs は1.6Bパラメータモデルを公開することで、大手テクノロジー企業のリソースを必要とせずに、説得力のある人間らしい対話を生成できる強力なツールを研究者や開発者に提供しました。

参照: nari-labs/dia