DeepSeek の新しい MoE 通信ライブラリがオープンソース AI 開発を前進させる

BigGo Editorial Team
DeepSeek の新しい MoE 通信ライブラリがオープンソース AI 開発を前進させる

AI 開発コミュニティにとって重要な動きとして、 DeepSeek が Mixture-of-Experts(MoE)モデル向けに設計された効率的なエキスパートパラレル通信ライブラリ DeepEP をリリースしました。このリリースは、オープンソースの性質と高度な最適化技術により、開発者や研究者の間で大きな興奮を巻き起こしています。

高度な通信アーキテクチャ

DeepEP は、 NVLink と RDMA 技術を通じてノード内およびノード間の操作をサポートする、洗練されたオールツーオール GPU 通信カーネルを導入しています。このライブラリは印象的なパフォーマンス指標を達成しており、ノード内操作では NVLink を通じて最大 158 GB/s のバンド幅に達し、ノード間通信では RDMA を介して 40-46 GB/s 前後の一貫したパフォーマンスを維持しています。

技術メモ:RDMA(Remote Direct Memory Access)は、どちらのオペレーティングシステムも関与せずに、あるコンピュータから別のコンピュータへの直接メモリアクセスを可能にし、高スループット、低レイテンシーのネットワーキングを実現します。

性能のハイライト:

  • ノード内通信( NVLink ):最大158 GB/秒の帯域幅
  • ノード間通信( RDMA ):39〜46 GB/秒の帯域幅
  • 低遅延操作:ディスパッチで163〜194μ秒、結合で318〜369μ秒
  • 8から256エキスパートまで効率的にスケール

要件:

  • Hopper GPU
  • Python 3.8以上
  • CUDA 12.3以上
  • PyTorch 2.1以上
  • ノード内通信用の NVLink
  • ノード間通信用の RDMA ネットワーク

革新的な PTX 最適化

このリリースで最も議論されている側面の一つは、高度な PTX 命令の使用です。このライブラリは、技術的には未定義の動作である特殊な behavior-out-of-doc PTX 命令(ld.global.nc1::no_allocate.L2::256B)を実装していますが、 Hopper アーキテクチャでの正確性について徹底的にテストされています。この最適化は技術コミュニティから特に注目を集めており、開発者たちはそのパフォーマンスへの潜在的な影響に注目しています。

「まるでお菓子屋さんにいる子供のような気分です。これらのトリックの一部は、論文に基づいて正しくリバースエンジニアリングするのに時間がかかりすぎるでしょう。」

コミュニティへの影響とオープンソースの哲学

このリリースは、オープンソース AI 開発の状況についての議論を引き起こし、多くのコミュニティメンバーが DeepSeek のアプローチと他の AI 企業のアプローチを好意的に比較しています。詳細なパフォーマンス指標や実装例を含む包括的なドキュメントは、開発者コミュニティに強く共鳴している透明で協力的な開発への取り組みを示しています。

このライブラリのリリースは、高度な AI 技術の民主化における重要な一歩を表し、より多くの研究者や開発者が MoE モデルを効果的に扱えるようになる可能性があります。 FP8 操作のサポートと柔軟な GPU リソース制御により、 DeepEP は将来の AI モデル開発と最適化のための堅固な基盤を提供します。

参考:DeepEP: an efficient expert-parallel communication library