DeepSeek が Fire-Flyer File System(3FS)をリリースしました。これは AI トレーニングと推論ワークロード専用に設計された高性能分散ファイルシステムです。このシステムは 2019 年から開発が進められており、当初は高頻度取引アプリケーション向けに作成されましたが、現在は大規模 AI トレーニングの特有のデータアクセスパターンに最適化されています。
ランダムリードワークロードのための卓越したパフォーマンス
3FS は驚異的なパフォーマンスを達成し、ベンチマークテストでは 180 のストレージノードからなるクラスタで約 6.6 TiB/s の読み取りスループットを示しています。このパフォーマンスレベルは、最近 1 TiB/s 到達を祝った Ceph のような従来の分散ファイルシステムを大幅に上回ります。このシステムは特に AI トレーニングワークロードで一般的なランダムリードパターン向けに設計されており、従来のキャッシングメカニズムではほとんど効果がありません。
「興味のある方のために、設計は元々ここで公開されました... このファイルシステムは彼らによって数年間開発され使用されてきました。従来のファイルシステムと比較して、多くのランダムリードを含むモデルトレーニングにより焦点を当てています。この場合、読み取りキャッシュとプリフェッチは役に立ちません。」
3FS の特徴は、従来のファイルシステムでは標準的な機能である読み取りキャッシングとプリフェッチを意図的に省略していることです。これらの機能は、短期間でデータが再利用されることがほとんどない AI トレーニングワークロードでは利点がありません。代わりに、3FS は Linux ベースの AIO と io_uring インターフェースを Direct I/O モードで使用し、ファイルキャッシュを完全にバイパスして不要なメモリ消費を防ぎます。
![]() |
---|
Fire-Flyer File System の優れたランダムリード性能を示すパフォーマンス指標 |
アーキテクチャと技術的実装
このシステムは、数千の SSD のスループットと数百のストレージノードのネットワーク帯域幅を組み合わせた分離アーキテクチャを採用しています。強力な一貫性のために Chain Replication with Apportioned Queries(CRAQ)を実装し、トランザクショナルキーバリューストアによってバックアップされたステートレスなメタデータサービスを使用しています。
3FS はメタデータ管理に FUSE を使用していますが、高性能を達成するには、アプリケーションが読み書きのために C++ クライアントライブラリに直接リンクする必要があります。この設計選択は、一般的な用途の有用性を制限するかどうかについてコミュニティでの議論を引き起こしていますが、アクセシビリティを向上させるために Python バインディングも利用可能です。
6.6 TiB/s のスループットを達成したベンチマーククラスタは、180 のストレージノードで構成され、各ノードには 2x200Gbps InfiniBand NIC と 16 台の 14TiB NVMe SSD が搭載され、読み取りストレステスト用に約 500 以上のクライアントノードがありました。この構成は、システムが大規模クラスタ全体で効果的にスケールする能力を示しています。
3FSのパフォーマンスハイライト:
- ピークスループット: 180台のストレージノードで6.6 TiB/秒の読み取りスループット
- ノード構成: 各ストレージノードには2x200Gbps InfiniBand NICと16台の14TiB NVMe SSDを搭載
- GraySortパフォーマンス: 110.5 TiBのデータを30分14秒(3.66 TiB/分)でソート
- KVCacheパフォーマンス: 最大40 GiB/秒の読み取りスループット
Cephとの比較:
- 3FS: 180ノード、2x200Gbps InfiniBand、ノードあたり16x 14TiB NVMe SSD、約500クライアント、6.6 TiB/秒の読み取りスループット
- Ceph: 68ノード、2x100Gbps Mellanox、ノードあたり10x 14TiB NVMe SSD、504クライアント、1 TiB/秒のランダム読み取りスループット
![]() |
---|
3FS の分散アーキテクチャの効果的なスケーリングとパフォーマンスを示すサーバースループット指標 |
競合他社の中での位置づけ
コミュニティでの議論では、3FS は Lustre のような確立されたソリューションや、高性能分散ストレージ向けの Weka のような新しい選択肢が支配する分野に参入することが強調されています。MinIO、Ceph、SeaweedFS などの従来のオブジェクトストレージシステムは、一般的に大規模 AI トレーニングの極端なスループット要求には遅すぎると考えられています。
Lustre は分散並列ファイルシステムの大御所ですが、セットアップと運用が非常に難しいことで知られています。3FS は、より現代的で管理しやすいアーキテクチャで同等またはそれ以上のパフォーマンスを提供することを目指しています。システムの 6.6 TiB/s スループットは、68 ノードの小規模クラスタで達成された Ceph の最近祝われた 1 TiB/s のマイルストーンを大幅に上回ります。
トレーニングを超えて:推論のための KVCache
トレーニングデータアクセスを超えて、3FS は KVCache 機能も提供しており、これはデコーダー層の以前のトークンからのキーと値のベクトルをキャッシュすることで LLM 推論を最適化します。この機能は推論中の冗長な計算を回避するのに役立ち、ベンチマーク結果では最大 40 GiB/s のピーク読み取りスループットを示しています。
この機能は、DeepSeek のコスト効率の良い推論サービス戦略の一部であり、プロンプトキャッシュヒットで競争力のある価格を提供できる理由を説明している可能性があります。
3FS のリリースは、DeepSeek の AI スタックの他のコンポーネントの最近の公開に続き、同社の成長するインフラストラクチャツールのポートフォリオに追加されます。あるコメンターが指摘したように、パフォーマンスがミリ秒ではなくナノ秒で測定される高頻度取引における同社の背景は、高性能 AI インフラストラクチャの構築へのアプローチに影響を与えた可能性があります。
AWS EFS のような既存のソリューションの高コストとパフォーマンスの制限に苦しんでいる組織にとって、3FS は有望な代替手段を提供する可能性がありますが、その専門的な性質は、一般的なストレージニーズよりも特定の AI ワークロードに最適であることを意味します。