名古屋ではたらく社長のITニュースポッドキャスト

Ep.602 OpenAI「GDPval」発表──44職種の“実務タスク”でAIはどこまで通用するのか(2025年10月2日配信)


Listen Later

9月25日(米国時間)、OpenAIが新評価「GDPval」を発表しました。狙いは“モデルがリアルな仕事でどれだけ役立つか”を、推測ではなく証拠で語ること。対象は米国GDPへの寄与が大きい9産業から選んだ44職種で、各職種30件、合計1,320件のタスクを専門家が実務成果物ベースで作成。うち5件×44=220件はゴールドセットとして公開されます。成果物は文書・スライド・表計算・図面・マルチメディアまで幅広く、平均14年の実務歴を持つ専門家が多段レビューで磨き込んだ“仕事そのもの”が評価素材です。


職種選定は、まずGDP寄与上位の産業を選び、BLSの職業賃金・雇用データから賃金貢献の大きい職種を抽出。さらにO*NETのタスク情報を用い、60%以上が知識労働の職種に絞り込みました。評価は同職種の熟練者が“ブラインド比較”で人間の模範解とAI出力をランク付け。あわせて、人間の判定を推定するAutomated Graderも研究用に提供されます(本番評価はあくまで人間が主)。


初期結果では、最先端モデルが専門家の水準に迫りつつあるとされ、特にClaude Opus 4.1が審美性に強みを示して総合トップ。GPT-5は正確性で目立ちました。モデル間の進歩幅も大きく、GPT-4oからGPT-5で“約3倍に近い伸長”と報じられ、OpenAIの発表でも大幅改善が明記されています。コスト・時間面では、純推論に限れば人間と比べ“約100倍速く・約100倍安い”という試算。ただし現場の監督・反復・統合コストは含まない点には注意が必要です。


このGDPvalは、学術色の強いMMLUや、実務寄りのSWE-Bench・MLE-Bench、そして市場連動型のSWE-Lancerと続いてきた“現実に寄せる評価”の次段です。今回は法律文書や設計図、看護計画、営業資料など“職務の実物”に踏み込み、モデルの真価と弱点を可視化するつくり。エンタープライズの導入判断でも、“まずAIに投げて良質な叩き台を得て、人が最終責任を持つ”というワークフローの費用対効果を測りやすくなります。


一方で限界もはっきり示しました。今回のv0はワンショット前提で、顧客との往復や複数ドラフト改善といった“仕事の呼吸”までは織り込めていません。今後は職種・産業の拡張、タスクの相互作用、曖昧な要件の扱いなど、職場の現実に近い形へ広げる方針です。企業の皆さんには、GDPvalのゴールドセットと公開グレーダーを用い、自社の業務テンプレートで“AIに先にやらせると何が得か”を試算してみる──そんな入口として活用するのがよさそうです。

...more
View all episodesView all episodes
Download on the App Store

名古屋ではたらく社長のITニュースポッドキャストBy ikuo suzuki