C++とCUDAで書かれた新しいトランスフォーマートレーニングおよび推論フレームワークである TScale は、そのコード品質と実装の選択について検討している開発者の間で議論を巻き起こしています。このプロジェクトは、一般消費者向けハードウェアでの大規模言語モデル(LLM)トレーニングをより身近にすることを目指していますが、初期のコミュニティからのフィードバックでは、時期尚早にリリースされた可能性が示唆されています。
最適化されたトランスフォーマーアーキテクチャと、より速い収束および注意コストの削減を約束するこのリポジトリは、トレーニング能力に関する野心的な主張で注目を集めています。ドキュメントによると、 TScale は NVIDIA 4090 GPUを搭載した複数のスポットインスタンスを使用して、約500ドルで15億パラメータのモデルをトレーニングできるとのことです。また、小規模モデルで大幅なパープレキシティ削減を実現すると報告されている興味深い1Tインデックス技術も導入しています。
TScale の主な機能:
- 収束が速く、注意機構のコストを約2倍削減した最適化されたトランスフォーマーアーキテクチャ
- fp8および int8 モデルの重みとアクティベーションの精度をサポート
- 高速な精度低減トレーニングを備えた一般消費者向け NVIDIA GPU に最適化
- GPU メモリ要件を削減するための CPU オフロード
- 同一構成のホスト上での同期分散トレーニング
- 通常のイーサネット接続用の1ビット勾配圧縮
- 最小限のネットワークトラフィックで任意のホスト上での非同期分散トレーニング
主張されるパフォーマンス:
- 15億パラメータモデルのトレーニング: 4090 GPU を搭載したスポットインスタンスで500ドルで2日間
- 1兆インデックスを持つ1億2500万パラメータモデル: パープレキシティが19.02から2.28に削減
ビルドシステムの課題
コミュニティメンバーから提起された最も差し迫った問題の一つは、ドキュメントで言及されているビルドシステムファイルがないことです。あるユーザーは、セットアップ手順に記載されている軽量なソリューション/ビルドファイルジェネレーターであるfo.cppが実際にはリポジトリに存在しないため、概説されているビルドプロセスに従うことが不可能だと報告しています。
「これを実行しようとしていますが、fo.cppがリポジトリに存在しません。イシューを作成しました。https://github.com/Foreseerr/TScale/issues/1 を参照してください」
この不一致は、プロジェクトが一般公開に完全に準備が整う前に公開された可能性を示唆しており、複数の開発者は、これが時期尚早に共有された週末プロジェクトである可能性を推測しています。
車輪の再発明
開発者の間でのもう一つの論点は、 TScale による基本的なコンポーネント(キー値設定ファイルパーサーなど)の実装です。これは確立されたライブラリが利用可能であることを考えると、多くの人が不必要と考えています。これにより、C/C++プロジェクトにおける依存関係管理についてのより広範な議論が巻き起こりました。
一部の開発者は、既存のライブラリを使用する代わりに独自のユーティリティを開発する傾向は、技術的な制限ではなく文化的な好みによるものであり、C/C++文化に深く根付いていると主張しています。 CMake のような現代的なツールが依存関係管理を容易にしたものの、外部依存関係を最小限に抑える慣行は依然として一般的です。
ある開発者は、このアプローチが依存関係チェーンに関する懸念に影響されている可能性を示唆しました:
「依存関係には通常、それ自体の依存関係(さらにその依存関係...)があります。難しさというよりも、その認識が私を依存関係を最小限に抑えるよう導いています。」
他の人々は、一部のコードパターンがLLM支援コーディングの症状である可能性を推測しました。AIツールは時に、既存のライブラリで解決できる問題に対して複雑なソリューションを実装することがあります。
謎の1Tインデックス
プロジェクトの1Tインデックス技術への言及は好奇心を生み出しています。 TScale によれば、このアプローチにより、予測のために各トークンで検索する1Tインデックスを持つモデルを構築することで、はるかに小さなモデルで自宅で1Tモデルをトレーニングすることができるとのことです。ドキュメントによれば、この構築はログ損失とパープレキシティの面で素晴らしい結果を達成し、インデックスを使用した125Mパラメータモデルで8倍のパープレキシティ削減が報告されています。
コミュニティメンバーはこの技術をより深く理解することに関心を示しており、一部の人々はこれが自動推論に関する学術文献で説明されている用語インデックス作成に似ている可能性があり、おそらく一般化を認識するのに役立つプレフィックスツリー構造として実装されていると推測しています。
![]() |
---|
この折れ線グラフは、 TScale の1Tインデックス技術のパフォーマンス主張と相関する可能性のあるデータの傾向を示しています |
分散推論におけるネットワークのボトルネック
議論はまた、特にネットワークのボトルネックに関して、分散推論の課題にも触れました。 TScale は地理的に離れたホスト上での非同期分散トレーニングを含む分散トレーニング機能に言及していますが、コミュニティはネットワークの制限が分散LLMシステムにとって依然として重大な課題であることを指摘しました。
あるコメンテーターが簡潔に述べたように:「十分に高度なLLMトレーニングまたは推論パイプラインは、最終的に本当のボトルネックがネットワークであることを理解する!」
結論として、 TScale は一般消費者向けハードウェアでLLMトレーニングをより身近にするための興味深いアイデアを提示していますが、初期のコミュニティの反応は、その約束を果たすためにはさらなる開発が必要かもしれないことを示しています。これらの議論は、効率的なLLMトレーニングフレームワークを作成する技術的課題と、C/C++エコシステムにおけるソフトウェア開発の文化的側面の両方を強調しています。
参照: TScale