September 24, 2025

「AIの評価」AI評価の歴史 #2-1

Listen Later

31 minutes

AI Shift Academy（#シフアカ）

テーマ第2弾は「AIの評価」

第1回はAIの「知能」を測る方法の歴史を解説します。

人間と区別できるかで判断するチューリングテストから始まり、チェスAIのような課題達成能力、ベンチマークによる客観的比較、そして近年のLLMをAIに評価させる「LLM as a Judge」という最新の試みまでを紹介。

それぞれの評価方法のメリットと、指標が形骸化する問題点などを通して、AIの知能を問うことの難しさと面白さに迫ります。

▼おたよりは⁠⁠⁠⁠⁠⁠こちら⁠⁠⁠⁠⁠⁠から

...more

View all episodes

View all episodes

Download on the App Store

Download on the App Store

Get it on Google Play

AI Shift Academy

By 株式会社AI Shift

September 24, 2025

「AIの評価」AI評価の歴史 #2-1

Listen Later

31 minutes

AI Shift Academy（#シフアカ）

テーマ第2弾は「AIの評価」

第1回はAIの「知能」を測る方法の歴史を解説します。

人間と区別できるかで判断するチューリングテストから始まり、チェスAIのような課題達成能力、ベンチマークによる客観的比較、そして近年のLLMをAIに評価させる「LLM as a Judge」という最新の試みまでを紹介。

それぞれの評価方法のメリットと、指標が形骸化する問題点などを通して、AIの知能を問うことの難しさと面白さに迫ります。

▼おたよりは⁠⁠⁠⁠⁠⁠こちら⁠⁠⁠⁠⁠⁠から

...more