生成AIの性能はどうやって決められているのでしょうか?実は、AIモデルの開発競争の裏では、テストスコアを巡る「いたちごっこ」が起きています。今回のテーマは「LLMのベンチマーク」。AIの実力を測るための様々なテストとその仕組みを深掘りします。
百科事典的な知識を問う「MMLU」から、Google検索でも答えが見つからない難問「GPQA」、さらに日本語能力に特化した「Nejumi LLM Leaderboard」まで、見るべき指標を徹底解説。しかし、ベンチマークには「テストデータの漏洩(カンニング)」や、指標自体が目的化して本来の性能が歪む「グッドハートの法則」といった落とし穴も存在します。そこで注目されているのが、動的に問題が生成される「Chatbot Arena」や、AI自身が審査員となる「LLM-as-a-Judge」です。ただの数字の羅列に見えるグラフの向こう側にある、エンジニアたちの工夫と苦悩を知れば、AIニュースの見え方がガラリと変わるはずです。
【目次】
(00:00) オープニング:AIニュースに落ち着かないあなたへ
(00:24) 今回のテーマ「LLMのベンチマークを学ぼう」
(03:32) そもそもベンチマークとは?スマホでの実例
(06:36) 歴史的指標「パープレキシティ」と現代のテスト
(12:40) 知識の広さを測る「MMLU」と推論能力「GPQA」
(20:47) テストデータの漏洩と「グッドハートの法則」
(29:29) 人間がジャッジする「Chatbot Arena」の信頼性
(39:50) 日本語特化の指標「Nejumi LLM Leaderboard」
(44:14) AIがAIを評価する「LLM-as-a-Judge」の未来
(55:36) オープンソースとHugging Faceの相互監視
(62:12) エンディング:指標を知って落ち着きを手に入れる
【今回の放送回に関連するリンク】
Chatbot Arena
Chatbot Arena leaderboard
MMLU-Pro Benchmark Leaderboard
GPQA Diamond Benchmark Leaderboard
LiveCodeBench Benchmark Leaderboard
Hugging Face Open LLM Leaderboard v2
Nejumi LLM Leaderboard
【今回の要チェックキーワード】
ベンチマーク(Benchmark)
AIモデルの性能を客観的に評価するためのテスト。または比較基準そのもの。複数モデルの実力差を測る“ものさし”として使われる。
パープレキシティ(Perplexity)
言語モデルが文章をどれだけうまく予測できるかを示す指標。値が小さいほど「文脈を正しく理解して予測できている」ことを意味する。
MMLU(Massive Multitask Language Understanding)
大学レベルの問題を含む57分野の知識テスト。一般教養の幅広さを測定する、LLMの代表的な総合ベンチマーク。
MMLU-Pro
従来のMMLUより難易度・品質を改善した改訂版。問題文の曖昧さを減らし、最新モデルの実力差をより正確に測れるようにした。
GPQA(Graduate-Level Google-Proof Q&A)
大学院レベルの高度な科学・数学問題を中心とした難問ベンチマーク。検索で答えが見つからない“純粋な推論力”を測るテスト。
GSM8K(Grade School Math 8K):
小学校高学年レベルの算数文章題を8,000問集めたベンチマーク。LLMの「基礎的な論理推論力」を測るときによく使われる。
LiveCodeBench:
AIに“実際のプログラミング環境”でコードを書かせ、その実行結果で評価するベンチマーク。
HumanEval
コード生成能力を測る初期の有名ベンチマーク。与えられた問題に対して正しく動作するプログラムを書けるかをテストする。
SWE-bench(Software Engineering Benchmark):
実在のGitHubリポジトリのIssueを解決できるかを評価するテスト。AIの“本物のソフトウェア開発能力”を測る指標として注目されている。
グッドハートの法則(Goodhart's Law):
「指標を目標にすると、指標として機能しなくなる」という法則。AI評価でも、ベンチマーク対策が進むと本来の能力を正しく測れなくなる問題を指す。
LLM-as-a-Judge:
AI自身を“判定者”として使い、他のAIの回答品質を比較する仕組み。公平性やバイアスの扱いが課題だが、スケールしやすいため研究が進んでいる。
Nejumi LLM Leaderboard:
日本語LLMを中心に評価したランキングプラットフォーム。MMLU-JPなど日本語特化の指標でモデルを比較できる点が特徴。
Hugging Face Open LLM Leaderboard v2:
世界中の公開LLMを統一指標で比較するリーダーボード。MMLU・GPQA・GSM8Kなど複数ベンチマークを総合してスコア化している。
Chatbot Arena:
ユーザーが2つのAIを“匿名で”比較し、どちらが良いか投票する評価方式。多数の人の投票による“ライブ対戦形式”で、実力を直感的に比較できる。
—----------------------------
【番組の概要】
日々のAIトピックを、現役のAIエンジニアがやさしく解説する対談番組。AIニュースに驚き疲れたあなたに、おちつきを提供します。AIニュースの、驚くポイント、驚かなくても良いポイントがわかります。
★ご感想やコメントは、番組公式ハッシュタグをつけてX(旧Twitter)でポストしていただけるとありがたいです。
【番組公式ハッシュタグ】
#おちつきAI
【番組公式X】
https://x.com/ochitsuki_AI
【パーソナリティ(MC)】
▼しぶちょー
・AIエンジニア
・技術士(機械部門)
「大手機械メーカーでAI開発の最前線を担う現役エンジニア。AI(ディープラーニング)の実装スキルを証明する「E資格」を保有。機械(ハードウェア)への高度な知見も有し、双方の専門性を掛け合わせ『AIの社会実装』に貢献する。情報発信活動にも精力的に取り組み、ブログ・音声配信(Podcast/Voicy)・SNSなどで幅広く活躍。単なる技術解説でなく、行動変容を伴う情報発信を信条とする。その姿勢が評価され、2025年UJA科学広報賞 審査員特別賞を受賞。著書に『集まれ設計1年生 はじめての締結設計』(日刊工業新聞社)。岐阜県テクノプラザものづくり支援センター広報大使、生成AI EXPO in 東海 共同代表も務める。」
https://x.com/sibucho_labo
https://voicy.jp/channel/3963
▼かねりん(金田勇太)
・KANERIN Podcast Studios 代表
・一般社団法人 地方WEB3連携協会 理事
「刑事司法実務の最前線で多数の犯罪捜査を指揮。2017年から暗号資産業界へ参入。数々のグローバルプロジェクトに参画しコンサルティング、情報分析・アドバイザリー業務を提供。コンサートライブ配信業、音声配信業、テックメディア創業等を経て、ポッドキャストレーベル兼プロダクション「KANERIN Podcast Studios」を創業。多様なパートナーと共に、未来へつなぐ声の原典を共創している。」
https://x.com/kanerinx
https://voicy.jp/channel/2534
【プロデューサー】
かねりん https://x.com/kanerinx
【サウンド・アーキテクト】
Aviv Haruta https://x.com/oji_pal
【カバーアートデザイン】
UTA https://x.com/uta_dib
【制作/著作】
KANERIN Podcast Studios
--------------------------------------------------
※画像引用元:https://lmarena.ai/
【各種ポッドキャストスタンドへのリンク】
Spotify
https://open.spotify.com/show/6iGk39bSta5KZ1QD7jvK2o
Apple Podcast
https://podcasts.apple.com/us/podcast/id1841316430
Amazon Music
https://music.amazon.co.jp/podcasts/aba8e9a4-aefb-404a-b366-4b7a11b3f7cb/
YouTube
https://www.youtube.com/playlist?list=PLNQiF7XIko7QOIlyFMiI_aDdk1eJzNiCD
LISTEN
https://listen.style/p/ochitsukiai