DeepGEMM の FFMA SASS インターリービング技術が FP8 行列演算に10%以上のパフォーマンス向上をもたらす

BigGo Editorial Team
DeepGEMM の FFMA SASS インターリービング技術が FP8 行列演算に10%以上のパフォーマンス向上をもたらす

DeepSeek AI が最近リリースした DeepGEMM ライブラリは、FP8 行列演算の革新的な最適化技術により技術コミュニティの注目を集めています。このライブラリは一般行列乗算(GEMM)に対していくつかのパフォーマンス改善を提供していますが、特に FFMA SASS インターリービング技術が技術専門家に強い印象を与え、一部のケースでは10%を超えるパフォーマンス向上を実現しています。

FFMA SASS インターリービングの背後にある魔法

DeepGEMM チームは、NVCC 12.2 と 12.3 コンパイラバージョン間で CUTLASS FP8 カーネルのパフォーマンス向上を発見しました。コンパイルされた SASS(ストリーミングアセンブリ)コードを慎重に分析した結果、FADD 命令の特定のビットがインターリービングパターンでフリップされていることを特定しました。このビットは yield 機能を制御し、本質的に現在のワープが実行を譲ることを可能にし、他のワープが作業できるようにすることでワープレベルの並列性を向上させる可能性があります。

この発見に基づき、チームはコンパイルされたバイナリ内の FFMA(融合浮動小数点乗加算)命令を修正するスクリプトを開発しました。彼らは yield ビットを操作するだけでなく、ワープが譲られた場合にレジスタを再利用できないため、再利用ビットもフリップしました。この一見小さな修正により、行列乗算累積(MMA)命令とプロモーション FFMA 命令をオーバーラップさせる機会が増え、大幅なパフォーマンス向上につながります。

「これは本当に驚異的だと言えるでしょう。」

重要な AI インフラストラクチャのための専門的最適化

コミュニティディスカッションでは、このようなパフォーマンス最適化は、パフォーマンスが重要な行列計算では一般的ですが、他の AI 企業ではこの特定の問題に広く適用されていないことが強調されています。あるコメンターが指摘したように、ほとんどの AI プレイヤーは高性能 GEMM 操作に依存していますが、通常は未文書化の機能を活用するのではなく、CUTLASS や cuBLAS などの標準実装に落ち着いています。

この最適化レベルは、AI 企業が高価な GPU クラスターから可能な限りのパフォーマンスを絞り出そうとする努力の程度を示しています。10%のパフォーマンス向上でも、大規模に運用する場合には大幅なコスト削減につながる可能性があります。議論が指摘するように、企業が GPU インフラストラクチャに何億ドルも投資している場合、このような利益は多くの人々の給与を賄うことができる可能性があります。

DeepGEMM の主要機能と要件

  • 性能向上: 最適化された CUTLASS 3.6 実装と比較して最大2.7倍の高速化

  • 最適化技術:

    • 永続的なワープ特殊化
    • Hopper TMA(テンソルメモリアクセラレータ)機能
    • 統合ブロックスケジューラとラスタライゼーション
    • 完全な JIT 設計
    • 非整列ブロックサイズ
    • FFMA SASS インターリービング
  • ハードウェア要件:

    • sm_90a をサポートする Hopper アーキテクチャ GPU
    • Python 3.8 以上
    • CUDA 12.3 以上(12.8 以上推奨)
    • PyTorch 2.1 以上
    • CUTLASS 3.6 以上

業界への影響とアクセシビリティ

DeepGEMM のオープンソースリリースは、特に AI モデルを提供する大規模プロバイダーに利益をもたらすよう戦略的に位置づけられているようです。このライブラリは Hopper アーキテクチャ GPU(sm_90a サポート付き)を必要とし、DeepSeek-V3 のようなシナリオ向けに特別に設計されており、通常の GEMM と専門家の混合(MoE)グループ化 GEMM の両方をサポートしています。

一部のコミュニティメンバーはすでに RTX 5080 のような消費者向けハードウェアでライブラリをテストしようとしましたが、共有メモリ容量に関連する制限に遭遇しています。このライブラリは明示的に NVIDIA Hopper テンソルコア向けに設計されており、消費者向けアプリケーションではなく、主に企業グレードの AI インフラストラクチャに関連しています。

DeepGEMM の技術的深さは、AI インフラストラクチャ最適化の洗練度の高まりを強調しています。AI モデルがサイズと複雑さを増すにつれて、ハードウェア命令レベルでのこのような一見些細な最適化は、現在のハードウェアで可能なことの境界を押し広げる組織にとってますます価値のあるものになっています。

参考:DeepGEMM: clean and efficient FP8 GEMM kernels with fine-grained scaling