DeepSeek の FlashMLA が Hopper GPU で90%のメモリ帯域幅効率を達成

BigGo Editorial Team
DeepSeek の FlashMLA が Hopper GPU で90%のメモリ帯域幅効率を達成

AIモデルサービングの効率性において重要な進展として、DeepSeek が Hopper GPU 向けに最適化された MLA(Multi-head Linear Attention)デコーディングカーネル FlashMLA をオープンソース化しました。この発表は、大規模言語モデルにおける従来の注意機構の代替として MLA への関心が高まる中で行われました。

性能のブレークスルー

FlashMLA は、H800 SXM5 GPU においてメモリバウンド構成で最大3000 GB/s、計算バウンド構成で580 TFLOPSという印象的な性能指標を示しています。これは、メモリ帯域幅効率約90%、計算効率60%を達成し、AIモデルサービングにおけるGPU使用効率の大幅な向上を示しています。

技術仕様:

  • GPU対応: Hopper GPU ( H800 SXM5 )
  • メモリ性能:最大3000 GB/秒
  • 計算性能:最大580 TFLOPS
  • 精度サポート: BF16
  • KV キャッシュ:64ブロックサイズのページング方式
  • CUDA 要件:12.3以上
  • PyTorch 要件:2.0以上

MLA vs 従来の注意機構

最近の理論研究により、MLA が従来の Group Query Attention(GQA)に対する優位性が実証されています。コミュニティでの議論によると、MLA は同じKVキャッシュオーバーヘッドを維持しながら、GQAよりも高い表現力を提供します。注目すべきは、 LLaMA 、 Qwen 、 Mixtral などの既存のGQAベースの事前学習モデルを MLAベースのモデルに変換できることです。

実装と制限事項

現在、 FlashMLA は BF16 精度をサポートし、ブロックサイズ64のページドKVキャッシュを実装しています。実装は有望な結果を示していますが、一部のコミュニティメンバーはプラットフォーム固有の制限を指摘しています:

「私の見解では、 FlashMLA が Hopper GPU のみを対象としていることはクロスプラットフォームでの使用を制限し、包括的なドキュメントの不足、より広いフレームワークとの互換性の不明確さ、ベンチマーク比較やトレードオフの洞察の欠如により、使いやすさと適応性が低下しています」

AIサービング領域への影響

この発表は、 vLLM や SGLang などの既存のAIサービングフレームワークへの潜在的な影響について議論を呼び起こしています。コミュニティは、 vLLM がすでに DeepSeek モデル向けに MLA サポートを実装し、生成スループットとトークンメモリ容量の大幅な改善を報告していることに注目しています。この競争的な環境は、AIモデルサービングの効率性における革新を継続的に推進しています。

将来への影響

より大規模なインフラストラクチャリリース戦略の一環として、 DeepSeek は追加のインフラストラクチャ関連リポジトリをオープンソース化する計画です。コミュニティは、これらのリリースが FlashMLA と組み合わさることで、特に大規模デプロイメントにおけるメモリ帯域幅と計算効率の課題に対処するAIモデルサービングの最適化の方向性に大きな影響を与える可能性があると期待しています。

参考: FlashMLA