人工知能コミュニティは、OpenAI による FrontierMath ベンチマークテストの問題へのアクセスに関する暴露を受け、最新の O3 モデルの報告された性能の妥当性について深刻な懸念が浮上し、論争に巻き込まれています。この展開は、AIモデル評価における透明性と公平性について激しい議論を引き起こしています。
この画像は、 OpenAI の FrontierMath テスト資料へのアクセスに関する議論を描いており、AI評価における透明性に関するコミュニティの懸念を強調しています。 |
FrontierMath 論争
LessWrong フォーラムでの Epoch AI の契約社員による重要な暴露により、OpenAI が FrontierMath ベンチマークテストに資金を提供していただけでなく、その問題集への特権的なアクセス権を得ていたことが明らかになりました。この情報は2024年12月20日の O3 のリリースまで非公開とされ、競合他社の2%未満の性能に対し、25.2%という高い精度を報告していたことに疑問を投げかけています。
モデルパフォーマンスの比較:
- OpenAI O3 : FrontierMath での正確性は25.2%
- GPT-4 と Gemini :正確性は2%未満
ベンチマークの重要性
FrontierMath は、Epoch AI とフィールズ賞受賞者や国際数学オリンピック問題作成者を含む60人以上のエリート数学者との協力によって開発された、高度な数学的推論の重要な評価ツールです。このベンチマークは、人間の専門家でさえ解決に数日を要する可能性がある、様々な数学分野にわたる数百の困難な独自問題で構成されています。
FrontierMath ベンチマークの対象範囲:
- 数学分野:数論、実解析、代数幾何学、圏論
- 貢献者:フィールズ賞受賞者を含む60名以上の一流数学者
- 問題の難易度:人間の専門家が解くのに数時間から数日を要する
学術界の反応と批判
Stanford University の数学博士課程の Carina Hong は、FrontierMath に貢献した6人の著名な数学者からの証言を提示し、OpenAI の独占的なアクセス権について彼らが知らなかったことを明らかにしました。大多数が、これらの取り決めを事前に知っていれば参加を辞退していた可能性を示唆しています。
Epoch AI の対応
Epoch AI の副ディレクター兼共同創設者の Tamay Besiroglu は、契約上の義務により早期開示ができなかったことを認めながら、透明性の欠如を認めました。OpenAI の資金提供はテストの内容に影響を与えることなく開発に限定されていたと主張しつつ、独立検証用の予約テストセットを除き、OpenAI が大部分の問題と解答にアクセスできていたことを確認しています。
専門家の批判
著名なAI専門家の Gary Marcus は、この状況を強く批判し、OpenAI の O3 のデモンストレーションを誤解を招くものであり、科学的に不適切だと特徴付けています。特に、どの問題が訓練データに含まれていたかについての開示の欠如と、詳細な推論プロセスの記録の欠如に批判が集中しています。
今後への影響
この論争が展開する中、OpenAI は Operator プロジェクトの進展を発表し、CEO の Altman は2025年1月30日に米国政府との非公開ブリーフィングを予定しています。このタイミングは、危機管理戦略とAI業界の実践に関するより広範な影響について、様々な推測を呼んでいます。