最近発表された Skywork-OR1(Open Reasoner 1)モデルは、AIコミュニティで大きな議論を巻き起こしています。特に、これらのモデルがどのように紹介されているかと、実際の開発アプローチとの間の相違点について注目されています。これらのモデルは数学やコーディングのベンチマークで印象的なパフォーマンスを示していますが、コミュニティメンバーはモデルの説明やマーケティング方法における透明性について懸念を表明しています。
微調整 vs オリジナルアーキテクチャ
Skywork-OR1-Math-7B、Skywork-OR1-32B-Preview、Skywork-OR1-7B-Previewを含む Skywork-OR1 シリーズは、AIME24、AIME25、LiveCodeBenchなどのベンチマークでの優れたパフォーマンスが宣伝されています。しかし、コミュニティメンバーは、これらのモデルが完全に新しいアーキテクチャではなく、既存のモデルを微調整したバージョンであるという事実を指摘しています。この点は Skywork の発表の最後にしか言及されていませんでした。
「彼らの成果を軽視するわけではありませんが、これはページの最後に埋もれるべきではありません - 完全に新しいモデルと微調整の間には大きな違いがあります」
これらのモデルは DeepSeek-R1-Distill-Qwen-7B と DeepSeek-R1-Distill-Qwen-32B をベースにしており、これらは他のモデルの蒸留バージョンです。このような層状のモデル開発アプローチにより、AIリサーチコミュニティ内で命名規則と透明性に関する議論が促されています。一部のコメンターは、Meta のような他の企業が派生作品に元のモデル名(Llamaなど)を新しいモデル名の先頭に含めることを明示的に要求していることを指摘しました。
![]() |
---|
Skywork-OR1 モデルの GitHub リポジトリで、そのコードと構造を紹介し、ファインチューニングと元のアーキテクチャの議論に関連しています |
ベンチマークの妥当性に疑問
コミュニティディスカッションでのもう一つの論点は、モデル評価に使用されるベンチマークに関するものです。一部のユーザーは、モデルがおそらく同じデータセットでトレーニングされている場合に AIME24 スコアを使用することの妥当性に疑問を呈しました。あるコメンターは、ほとんどのベンチマークデータセットが最終的にトレーニングデータに含まれるため、これはAIモデル評価における普遍的な問題であると指摘しました。
AIME24 と AIME25 のスコア間の大きなパフォーマンス低下(例えば、Skywork-OR1-Math-7B は AIME24 で 69.8 を記録したが AIME25 では 52.3 にとどまった)は、この懸念を裏付けているようであり、モデルがトレーニング中に見た可能性の高いデータでより良いパフォーマンスを発揮することを示唆しています。
モデルパフォーマンス比較 (Avg@32)
モデル | AIME24 | AIME25 | LiveCodeBench (Avg@4) |
---|---|---|---|
DeepSeek-R1-Distill-Qwen-7B | 55.5 | 39.2 | 37.6 |
Light-R1-7B-DS | 59.1 | 44.3 | 39.5 |
Skywork-OR1-Math-7B | 69.8 | 52.3 | 43.6 |
Skywork-OR1-7B-Preview | 63.6 | 45.8 | 43.9 |
DeepSeek-R1-Distill-Qwen-32B | 72.9 | 59.0 | 57.2 |
Skywork-OR1-32B-Preview | 79.7 | 69.0 | 63.9 |
DeepSeek-R1 (671B) | 79.8 | 70.0 | 65.9 |
![]() |
---|
Skywork-OR1-Math-7B の AIME24 データセットにおけるパフォーマンスを示す線グラフで、議論で提起されたベンチマークの関連性に関する懸念を示しています |
ローカルモデルのパフォーマンストレードオフ
議論はまた、AIモデルをローカルで実行することとクラウドベースのサービスを使用することの比較という広いトピックにも触れました。コミュニティメンバーは様々なローカルモデルでの経験を共有し、特定のタスクではより高速であることもあるが、速度、精度、汎用性の間にはしばしばトレードオフがあることを指摘しました。
限られたGPUメモリなど、特定のハードウェア制約を持つユーザーにとって、適切なモデルの選択は極めて重要です。いくつかのコメンターは、 ChatGPT や Gemini のようなクラウドベースのモデルのように「すべてをそこそこうまくこなす」ローカル版はないものの、特化型モデルは特定のタスク( qwen 2.5 coder 32b のようなモデルがコーディングに推奨される)で優れた性能を発揮できると言及しました。
オープンソースへのコミットメント
提起された懸念にもかかわらず、コミュニティは Skywork のオープンソース化へのコミットメントに肯定的な反応を示しています。同社はモデルの重みだけでなく、トレーニングデータとコードもリリースすることを約束していますが、発表時点では、これらのリソースの一部はまだ「Coming Soon(近日公開)」とされていました。
このオープンなアプローチにより、コミュニティから提起された透明性への懸念の一部が解消される可能性があり、他の人々がこれらのモデルがどのように開発されたかをより良く理解し、さらに発展させる可能性を開くかもしれません。
Skywork-OR1 モデルは、オリジナルの研究、蒸留、微調整の境界線が曖昧になり続けるAIモデル開発の進化する風景における興味深いケーススタディを示しています。これらの実践がより一般的になるにつれて、AIコミュニティはそのような作業がどのように提示され、評価されるかについてより明確な基準を求めているようです。