WebGPU の行列乗算性能:1 TFLOP/s を達成するも、CUDA のピーク性能には遠く及ばず

BigGo Editorial Team
WebGPU の行列乗算性能:1 TFLOP/s を達成するも、CUDA のピーク性能には遠く及ばず

WebGPU の最近の発展により、特に機械学習アプリケーションに不可欠な行列乗算演算において、ウェブブラウザでの高性能コンピューティングの可能性に関する議論が活発化しています。1 TFLOP/s の性能達成は重要なマイルストーンですが、コミュニティの反応からは、WebGPU のネイティブソリューションと比較した際の進歩と限界の両方が明らかになっています。

ネイティブソリューションとの性能差

WebGPU の現在の実装では、Apple M2 ハードウェアでの理論的なピーク性能の約17%を達成していますが、これは同様の行列構成における CUDA の75%の効率と比べると大きく下回っています。この差は、ウェブベースの GPU コンピューティングソリューションにおけるアクセシビリティと性能のトレードオフを示しています。この性能差は、WebGPU の高レベルな抽象化とハードウェア固有の最適化へのアクセスが制限されていることに起因しています。

ハードウェア固有の制限

開発者コミュニティからの重要な指摘として、WebGPU は現在、重要なハードウェア固有の機能をサポートしていないことが挙げられます。ある開発者は次のように述べています:

WebGPU は残念ながら近づくことさえできません。ハードウェア固有のメモリや warp レベルのプリミティブ(TMA やテンソルコアなど)のサポートがないためです。性能の80%に達するわけではなく、大規模な計算行列乗算に関連する処理ではピーク性能の30%未満しか得られません。

代替のCPUソリューション

興味深いことに、特定のワークロードでは、CPUベースのソリューションの方が効率的である可能性が議論で明らかになりました。Accelerate フレームワークを通じてアクセス可能な Apple の AMX(Advanced Matrix Extensions)アクセラレータは、他のシステムリソースを利用可能な状態に保ちながら、同等またはそれ以上の性能を達成できます。これは、GPU アクセラレーションが常に最適であると仮定するのではなく、特定の計算ニーズに適したツールを選択することの重要性を示しています。

今後の展開

WebGPU ワーキンググループは、これらの性能差を埋めるために積極的に取り組んでいます。Chrome 128 でのサブグループサポートの導入など、最近の開発は性能向上の可能性を示しています。さらに、Safari は iOS 18.2 で WebGPU サポートを有効にする準備を進めているとされ、これによりプラットフォーム全体でのテクノロジーの普及が大きく進む可能性があります。

結論

WebGPU の1 TFLOP/s の性能達成は注目に値しますが、これは普遍的なアクセシビリティとピーク性能の間の妥協点を示しています。行列演算を必要とするウェブベースのアプリケーションにとって、WebGPU は実行可能なソリューションを提供しますが、最大限の性能を必要とする開発者は、CUDA や Metal を使用したプラットフォーム固有の実装を検討する必要があるかもしれません。

出典:Optimizing a WebGPU Matmul Kernel for 1TFLOP+ Performance