今回は、スタンフォード大学が発表した革新的なAI評価プロジェクト「UQ(Unsolved Questions)」について解説します。
ChatGPTをはじめとする最新AIは、大学入試や各種試験で人間並みの成績を収めるようになりました。しかし、これらは全て「答えが分かっている問題」での話。では、人類がまだ答えを知らない問題ではどうでしょうか?
Stack Exchangeに2年以上放置されている未解決質問300万件から厳選した500問。数学の未証明定理、物理学の理論的難題、解法不明のアルゴリズム問題など、人類の英知を集めても解けない問題たちです。最強のAIモデルでさえ、わずか15%しか合格できなかったという衝撃の結果が明らかになりました。
さらに興味深いのは、AIモデル自身を評価者として活用する「ジェネレータ・バリデータギャップ」という新発見。AIは答えを生み出すより、答えをチェックする方が得意だという特性を活かし、9段階の厳格な自動評価システムを構築。最終的には人間の専門家が確認するという、AI と人間の協働による画期的な仕組みです。
従来のベンチマークと違い、UQでAIが1問解けば、それは人類の未解決問題が1つ解決されることを意味します。つまり、AI の進歩が直接的に人類の知識拡大につながるのです。
Paper: https://arxiv.org/abs/2508.17580
Book: https://amzn.to/4nAM1zw
note: https://note.com/rami_engineer
X: https://x.com/rami_engineer