Láncreakció

#219 - Az év válsága a benchmarkok körül forog


Listen Later

A nagy nyelvi modellek eredményességét nehéz mérni, hiszen egy meglehetősen szubjektív tevékenységet kellene összehasonlítható és objektív módon értékelni. A régebbi benchmark-adatbázisok, mint pl. az MMLU vagy a GPQA már nem jelentenek kihívást az LLM-eknek (ahogy ezt az LMArena Leaderboardján is láthatjuk), mert rájuk tanultak - de akkor mi a megoldás? Az Apple tanulmánya szerint (The Illusion of Thinking) úgysem tudnak komplex problémákat megoldani az LLM-ek, és Caiwei Chen is azt írja, hogy válságban a benchmarking (Can We Fix AI's Evaluation Crisis?). Amíg ezek vitatkoznak, mi versenyezhetünk az LLM-ekkel - ki az okosabb?

...more
View all episodesView all episodes
Download on the App Store

LáncreakcióBy Láncreakció Clementine


More shows like Láncreakció

View all
Checkpoint by Grath & Stöki

Checkpoint

14 Listeners

GOMBAPRESSZÓ by Egor Zosma bps Orsa Gomez

GOMBAPRESSZÓ

10 Listeners

HVG podcastok by HVG

HVG podcastok

12 Listeners

Az élet meg minden by Tóth Szabolcs Töhötöm

Az élet meg minden

43 Listeners

Spagetti Lakóautó Podcast by Spagetti Lakóautó

Spagetti Lakóautó Podcast

0 Listeners

Képtelen Krónika by Grath, Mazur és Stöki

Képtelen Krónika

9 Listeners

csúnyarosszmajom by Dr. Egri János dr., Mr. Univerzum és fxMester

csúnyarosszmajom

1 Listeners

Partizán by Partizán média

Partizán

24 Listeners

Hold After Hours by Hold Alapkezelő

Hold After Hours

4 Listeners

Qubit Podcast by QUBIT.HU

Qubit Podcast

5 Listeners

444 podcastek by 444

444 podcastek

21 Listeners

Concorde Podcast by Concorde

Concorde Podcast

0 Listeners

Friderikusz Podcast by Friderikusz Sándor

Friderikusz Podcast

55 Listeners

Portfolio Checklist by Portfolio

Portfolio Checklist

3 Listeners

Jár a krémes! by Zsu, MrU

Jár a krémes!

0 Listeners