ART ライブラリが LLM トレーニングのための強化学習をアクセスしやすくする

BigGo Editorial Team
ART ライブラリが LLM トレーニングのための強化学習をアクセスしやすくする

オープンソースの Agent Reinforcement Trainer(ART)は、開発者が強化学習を通じて言語モデルをトレーニングする印象的な結果を示すことで、AI コミュニティで注目を集めています。このライブラリは、大規模言語モデル(LLM)のための強化学習の複雑なプロセスを簡素化し、広範な ML 専門知識なしで開発者がカスタムタスクでモデルをトレーニングできるようにすることを目指しています。

SFT と RL の間のギャップを埋める

コミュニティでの最も洞察に富んだ議論の一つは、教師あり微調整(SFT)と強化学習(RL)アプローチの違いに関するものです。SFT が入力に対して特定の出力トークンを生成するようにモデルをトレーニングするのに対し、強化学習は報酬関数を最適化することに焦点を当てています。

「一方、RL は具体的な出力トークン列を生成するのではなく、ある報酬関数(報酬は自分で決められる)を最大化する出力を作成するためにモデルをトレーニングすることを意味します。」

このアプローチは、答えを生成するよりもチェックする方が簡単なシナリオで特に価値があります。例えば、ART チームが共有した電子メール調査エージェントの例では、モデルはキーワード検索を効果的に使用して関連する電子メールを見つけるようにトレーニングされました—これは開発者が明示的にプログラムしなかった戦略ですが、モデルが強化学習を通じて発見したものです。

OpenAI 互換 API による柔軟な実装

ART はその柔軟な実装アプローチによって際立っています。開発者に硬直したフレームワーク内での作業を強制するのではなく、ART は独自 API のドロップイン置き換えとして機能する OpenAI API 互換のエンドポイントを提供します。この設計選択により、開発者は最小限の修正で既存のコードベースに ART を統合できます。

このライブラリは、クライアントとサーバーの間で機能を分割しています。クライアントは開発者のコードとインターフェースし、サーバーは強化学習ループの複雑な推論とトレーニング部分を処理します。この分離により、カスタマイズの余地を残しながら、複雑さの多くが抽象化されます。

ART がサポートするエージェントタスク

エージェントタスク 説明 使用モデル
2048 ゲームエージェント Qwen 2.5 3B
Temporal Clue パズルソルバー Qwen 2.5 7B
Tic Tac Toe ゲームエージェント Qwen 2.5 3B

ART トレーニングループの概要

  1. 推論

    • コードは ART クライアントを使用してエージェントワークフローを実行
    • リクエストは vLLM で実行されているモデルの最新 LoRA を搭載した ART サーバーにルーティング
    • メッセージは軌跡(Trajectory)に保存
    • ロールアウト完了時に報酬が割り当てられる
  2. トレーニング

    • 軌跡がグループ化されてサーバーに送信
    • サーバーは GRPO アルゴリズムを使用してモデルをトレーニング
    • 新しくトレーニングされた LoRA が保存され、VLLM にロード
    • 改善されたモデルで推論を再開

有望な実世界アプリケーション

コミュニティメンバーは、ART の電子メールエージェントをライブラリの能力の説得力のあるデモンストレーションとして強調しています。このエージェントは、キーワードを使用して電子メールを効率的に検索するようにトレーニングされ、明示的なプログラミングではなく強化を通じて最適な検索戦略を学習しました。

このライブラリは現在、2048、Temporal Clue、Tic Tac Toe などのゲームを含む様々なタスクでのトレーニングをサポートしており、ベンチマークは比較的なパフォーマンス向上を示しています。これらの例は、ART が自分のユースケースにどのように適用できるかを理解しようとする開発者のためのエントリーポイントとして機能します。

開発状況とコミュニティエンゲージメント

ART は現在アルファ段階にあり、開発チームは積極的にフィードバックと貢献を求めています。HTTP API エンドポイントはまだ変更される可能性があり、フレームワークの継続的な改良を示しています。チームは彼らがまだ実際の環境で ART をテストしていることを認め、ユーザーに Discord や GitHub を通じて問題を報告するよう促しています。

このプロジェクトは、 Unsloth 、 VLLM 、 trl 、 SkyPilot など、いくつかの確立されたオープンソースプロジェクトを基盤としており、AI ツール開発における協調的な性質を示しています。

より多くの開発者が ART を実験するにつれて、強化学習が特定のタスクでの LLM パフォーマンスを向上させる応用範囲が拡大することが期待され、以前は相当な ML 専門知識とリソースを持つ組織に限られていた高度な AI トレーニング技術へのアクセスを民主化する可能性があります。

参照: Agent Reinforcement Trainer (ART)