ANEMLL プロジェクトが Apple Neural Engine の LLM 推論における性能の明暗を明らかに

BigGo Editorial Team

ANEMLL プロジェクトが Apple Neural Engine の LLM 推論における性能の明暗を明らかに

Apple の Neural Engine（ANE）は、開発者向けの文書や利用のしやすさが限られている Apple Silicon チップの謎めいたコンポーネントでした。新しいオープンソースプロジェクト ANEMLL（「animal」と発音）は、大規模言語モデルを ANE に移植するためのツールを提供することでこの状況を変えようとしていますが、コミュニティのテストでは利点と大きな制限の両方が明らかになっています。

パフォーマンスのトレードオフ：速度と電力効率

コミュニティメンバーによるテストでは、ANE 最適化モデルは GPU 実装よりも遅く実行されるものの、驚くべき電力効率を提供することが示されています。あるユーザーは、 M4 Pro 上で Llama 3.2 1B モデルが約62トークン/秒を達成しながら、消費電力はわずか2.8ワットだったと報告しています。比較すると、GPU 実装は2倍速いですが、約20ワット（ほぼ10倍の電力）を消費します。この効率性は、バッテリー寿命が重要なモバイルデバイスにとって ANE が特に価値があることを示しています。

しかし、ANEMLL と MLX のような他のフレームワークとの直接比較では、大きなパフォーマンスの差が見られます。 M4 Max で DeepSeek R1-8B を実行したベンチマークでは、ANEMLL は8ビット量子化バージョンの MLX の31.33トークン/秒と比較して、わずか9.3トークン/秒しか達成できませんでした。このパフォーマンスの差は、ほとんどのユースケースにおいて電力節約が速度低下を正当化するかどうかという疑問を投げかけています。

パフォーマンス比較： ANEMLL vs MLX on M4 Max

フレームワーク	モデル	パフォーマンス	メモリ使用量
ANEMLL	DeepSeek R1-8B	9.3 トークン/秒	~500MB
MLX (8ビット)	DeepSeek R1-8B	31.33 トークン/秒	~8.5GB
MLX (bf16)	DeepSeek R1-8B	27.17 トークン/秒	~15.7GB

電力効率の比較

ハードウェア	モデル	パフォーマンス	電力使用量
M1 Max (ANE)	Llama 3.2-1B	47 トークン/秒	~1.8 ワット
M4 Pro (ANE)	Llama 3.2-1B	62 トークン/秒	~2.8 ワット
GPU 実装	類似モデル	~2倍速い	~20 ワット

メモリ効率と技術的制限

ANEMLL の意外な利点の一つはメモリ効率の良さです。パフォーマンスが遅いことを示した同じベンチマークでは、メモリ使用量が劇的に少ないことも明らかになりました—ANEMLL は約500MBであるのに対し、MLX の8ビットモデルは8.5GBでした。この効率性は、 iPhone や iPad のようなメモリが限られたデバイスでモデルを実行する場合に、ANE 実装が特に価値を持つ可能性があります。

ANE を扱う技術的課題は、そのハードウェア制約に起因しています。GPU とは異なり、ANE は固定された入出力形状を必要とし、アテンションキャッシュの拡大のような動的操作が難しくなっています。また、FP16精度のみをサポート（BF16はサポートしていない）しており、アクティベーションのオーバーフロー問題を引き起こす可能性があります。開発者は、線形層の代わりに conv2d 操作を使用したり、キーバリューキャッシュ用のスライディングウィンドウアプローチを開発したりするなど、創造的な回避策を実装する必要がありました。

Apple のクローズドエコシステムアプローチ

コミュニティの議論では、AI アクセラレーションに対する Apple のアプローチに対する不満が明らかになっています。Apple 自身の研究論文が ANE 最適化モデルの大幅なパフォーマンス向上を主張しているにもかかわらず、同社は開発者向けの文書やツールを限定的にしか提供していません。Apple 独自の MLX フレームワークさえも ANE をサポートしていないことから、同社の戦略に疑問が投げかけられています。

一部のコメンターは、 Snapdragon X ラップトップの Qualcomm NPU との類似点を指摘し、ハードウェアメーカーが AI ワークロード向けのニューラル処理ユニットの能力を過大評価していることが多いと示唆しています。現実には、これらの特殊なチップは特定の限られたタスクに優れていますが、ユーザーが実際に実行したい大規模モデルに対しては約束されたパフォーマンスを提供できない可能性があります。

あるコミュニティメンバーは次のように述べています：

「重要な利点は大幅に低い電力使用量です。私のマシンで llama3.2-1B をベンチマークしました；M1 Max（47t/s、約1.8ワット）、M4 Pro（62t/s、約2.8ワット）。GPU は2倍速く（Max ではさらに速い）、しかし ANE と比較してはるかに多くの電力（約20ワット）を消費します。」

ANEMLL プロジェクトは、Apple の Neural Engine を開発者にとってよりアクセスしやすくするための重要なステップを表していますが、現在のパフォーマンス特性は、生の速度よりも電力効率を優先する特定のユースケースに最も価値があることを示唆しています。Apple が新しい M シリーズチップでハードウェアを進化させ続けるにつれて、ANE、CPU、GPU の能力間のバランスが変わり、Neural Engine が一般的な AI ワークロードにとってより競争力を持つ可能性があります。

参考： ANEMLL