大規模言語モデルの規模と複雑さが増大し続ける中、推論コストとメモリアクセス効率の管理が重要な課題となっています。ByteDance の Douyin チームは、AIモデルアーキテクチャにおけるこれらの課題に革新的なソリューションを開発しました。
スパースモデルアーキテクチャへの新しいアプローチ
ByteDance の最新イノベーションである UltraMem は、現在の Mixture of Experts(MoE)システムのメモリアクセス制限に対する重要なブレークスルーを実現しました。この新しいアーキテクチャは ICLR 2025 での発表が承認され、学術界からの認知を得ています。このシステムは、従来の MoE アーキテクチャと比較して推論速度が2-6倍向上し、推論コストを最大83%削減するという顕著な性能と効率の改善を示しています。
性能改善:
- 推論速度: MoE と比較して2-6倍高速
- コスト削減:推論コストを最大83%削減
- テスト済みモデルサイズ:151M、680M、1.6Bパラメータ
技術的革新
このアーキテクチャは、既存のシステムに対して3つの重要な改善を導入しています。第一に、従来の PKM(Product Key Memory)設計で見られる単一の大規模メモリレイヤーに代わり、Transformerレイヤー全体に分散された複数の小規模メモリレイヤーを実装しています。第二に、Tucker Decomposed Query-Key Retrieval(TDQKR)と呼ばれるより洗練された値取得方法を採用し、値のスコアリングの複雑さと効果を向上させています。最後に、Implicit Value Expansion(IVE)を導入し、物理メモリの比例的な増加なしに仮想メモリの拡張を可能にしています。
主要な技術的特徴:
- 複数の分散メモリ層
- Tucker 分解クエリ・キー検索( TDQKR )
- 暗黙的な値の拡張( IVE )
- 最大2,000万の値をサポート
パフォーマンスとスケーラビリティ
151Mから1.6Bパラメータまでのモデルにわたる広範なテストにおいて、UltraMem は MoE および PKM アーキテクチャの両方と比較して優れたパフォーマンスを示しています。特に印象的なのは、スパースパラメータが増加しても推論時間を一定に保てる能力です。これは、パラメータの増加に伴い顕著な速度低下を示す MoE モデルと比較して大きな利点となっています。このアーキテクチャは、最大2,000万の値を持つモデルでテストに成功しており、数十億の値やエキスパートへの拡張の可能性を切り開いています。
実用的な意義
AI業界にとって、UltraMem の成果は大規模言語モデルの実用化に向けた重要な一歩を表しています。推論コストの大幅な削減とメモリ効率の改善により、高度なAIモデルがより広範なアプリケーションや組織にとってアクセス可能で経済的に実現可能になる可能性があります。この開発は、ますます高度化するAIモデルの計算需要に業界が直面している重要な時期に実現されました。
![]() |
---|
画像に示されたパフォーマンスデータによると、 UltraMem の技術革新により、大規模言語モデルが様々な用途において経済的にアクセス可能になることが示唆されています。 |