AI Shift Academy

「AIの評価」今後のAI評価 #2-5


Listen Later

AI Shift Academy(#シフアカ)


AIの「賢さ」を測るモノサシが変わる?

従来の「難しい問題が解けるか」という評価(ベンチマーク)だけでは、AIの真の実力は測れなくなりつつあります。

これからのAI評価は、

・ウェブ探索能力 (BrowseComp)

・ツールの使い方 (LiveMCP)

・研究能力や洞察の深さ

・マルチモーダルや対話能力

など、より実践的なスキルが問われます。

また、「Chatbot Arena」のようなユーザー投票や、人間が評価ループに入る「Human-in-the-Loop」も再注目されています。

「AI版ムーアの法則」と呼ばれるタスク完遂速度や、安全性・バイアス(RedTeaming, HELM)など、評価軸はどんどん複雑で多角的に。

AI評価の未来を解説します!


▼おたよりは⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠こちら⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠から

...more
View all episodesView all episodes
Download on the App Store

AI Shift AcademyBy 株式会社AI Shift