AI Shift Academy

「AIの評価」AI評価の歴史 #2-1


Listen Later

AI Shift Academy(#シフアカ)

テーマ第2弾は「AIの評価」

第1回はAIの「知能」を測る方法の歴史を解説します。

人間と区別できるかで判断するチューリングテストから始まり、チェスAIのような課題達成能力、ベンチマークによる客観的比較、そして近年のLLMをAIに評価させる「LLM as a Judge」という最新の試みまでを紹介。

それぞれの評価方法のメリットと、指標が形骸化する問題点などを通して、AIの知能を問うことの難しさと面白さに迫ります。


▼おたよりは⁠⁠⁠⁠⁠⁠こちら⁠⁠⁠⁠⁠⁠から

...more
View all episodesView all episodes
Download on the App Store

AI Shift AcademyBy 株式会社AI Shift