AIの「成績表」をつける技術って?計画は得意だけど実行が苦手なAIの真実に迫る!
今回の『らみのAIテックラジオ』では、「AIエージェントの実力を正確に測る新技術:MCPEval」をテーマに、AIの評価方法について分かりやすく解説しています。
ChatGPTのようなAIアシスタントが急速に普及する中、「このAIは本当に信頼できるの?」と疑問に思ったことはありませんか?実は、AIの性能を正確に評価することは、研究者にとっても大きな課題でした。
番組では、Salesforce AI Researchが開発した革新的な評価システム「MCPEval」について、パーソナリティのらみとAI博士が楽しく対話しながら解説。驚くことに、実験の結果、ほとんどのAIが「計画は得意だけど、実行で躓く」という意外な弱点を持っていることが判明しました。
例えば、旅行計画を立てる時、AIは「フライトを検索→ホテル予約→観光地リスト作成」という手順は完璧に理解できるのに、最終的に出力される旅行プランの質がイマイチ...なぜこんなことが起きるのでしょうか?
また、医療分野では高性能なのに金融分野では苦戦するなど、分野による得意・不得意も明らかに。OpenAIとオープンソースモデルの性能差や、AIがAIを評価する仕組みなど、興味深い話題が満載です。
Paper:https://arxiv.org/abs/2507.12806
Book: https://amzn.to/4nAM1zw
note: https://note.com/rami_engineer
X: https://x.com/rami_engineer