DeepSeek は、比較的控えめなリソースで重要なAIの進歩を達成できることを実証する R1 シリーズの推論モデルをリリースし、AI業界に衝撃を与えています。550万ドルのコンピューティングコストで V3 モデルを構築した同社は、現在、主要な商用製品と同等かそれ以上の性能を発揮する、オープンウェイトモデルを大幅に低コストで提供しています。
推論モデルと利用可能なリソースを紹介している DeepSeek-R1 の GitHub リポジトリのスクリーンショット |
革新的な推論アプローチ
DeepSeek R1 は、教師あり微調整(SFT)を必要とせず、強化学習(RL)のみで推論能力を開発できることを実証する画期的なアプローチを導入しました。この成果は従来の手法からの大きな転換を示し、モデルが RL のみを通じて複雑な推論行動を自然に発展させられることを証明しています。このモデルの特徴的な点は、コミュニティから賞賛と批判の両方を集めている、その推論過程が可視化されていることです。
性能とアクセシビリティ
R1 シリーズには、1.5Bから70Bパラメータまでの様々な圧縮モデルが含まれており、異なる計算リソースを持つユーザーがアクセスできます。コミュニティのテストでは、小規模な圧縮モデルでも特定のタスクで印象的な能力を示していますが、いくつかの制限もあります。これらのモデルは MIT ライセンスの下でリリースされ、商用利用や改変、他の LLM のトレーニングのための蒸留を含む修正が許可されています。
「破壊的技術に直面する中で、クローズドソースによって作られた堀は一時的なものです。 OpenAI のクローズドソースアプローチでさえ、他社の追い上げを防ぐことはできません。そのため、私たちは価値を私たちのチームに置いています。同僚たちはこのプロセスを通じて成長し、ノウハウを蓄積し、イノベーションを生み出せる組織と文化を形成します。それが私たちの堀なのです。」
モデル仕様:
- コンテキスト長:128K
- 総パラメータ数:671B
- 有効パラメータ数:37B
利用可能な蒸留モデル:
- DeepSeek-R1-Distill-Qwen-1.5B
- DeepSeek-R1-Distill-Qwen-7B
- DeepSeek-R1-Distill-Llama-8B
- DeepSeek-R1-Distill-Qwen-14B
- DeepSeek-R1-Distill-Qwen-32B
- DeepSeek-R1-Distill-Llama-70B
技術的課題と制限
ユーザーからは、特に関数呼び出しの問題や時折の幻覚について、様々な経験が報告されています。モデルの思考出力が冗長になる傾向があることも、一部のユーザーから過剰だと指摘されています。また、64Kの入力トークン制限と8Kの出力トークン制限も、一部の商用製品と比較して制約となる可能性があります。ただし、コミュニティはチャンキングや RAG の実装など、様々な回避策を開発しています。
AI業界への影響
DeepSeek のアプローチは、AI業界の既存のプレーヤーに対する重要な挑戦を示しています。大幅に低いコンピューティングコストで同等の結果を達成し、技術を公開することで、効果的なAI開発に必ずしも膨大な計算リソースが必要ないことを実証しています。これは、AI技術の民主化と推論モデルの将来の開発に広範な影響を与える可能性があります。
DeepSeek R1 のリリースは、オープンソースAI開発における重要なマイルストーンとなり、高度な推論能力が単なる計算能力ではなく、革新的なアプローチによって達成できることを示しています。モデルにはいくつかの制限がありますが、そのコストパフォーマンスとオープンな性質は、この分野に大きな貢献をもたらしています。