Knowledge Science - Alles über KI, ML und NLP

Episode 154 - Sind LLMs auf Benchmark Daten manipuliert?


Listen Later

Send us Fan Mail

In der heutigen Sendung versuchen wir rauszufinden, ob man sich auf die öffentlichen Benchmarks zum Testen und Vergleichen von Sprachmodellen verlassen kann. Oder ob Benchmark Testdaten zum Trainieren verwendet werden. Hierbei handelt es sich um das Benchmark Leakage. Hören Sie rein. 

Wir sprechen vor allem über das Paper: Benchmarking Benchmark Leakage in Large Language Models https://arxiv.org/abs/2404.18824

Support the show

...more
View all episodesView all episodes
Download on the App Store

Knowledge Science - Alles über KI, ML und NLPBy Sigurd Schacht, Carsten Lanquillon


More shows like Knowledge Science - Alles über KI, ML und NLP

View all
Hintergrund by Deutschlandfunk

Hintergrund

62 Listeners

Geschichten aus der Geschichte by Richard Hemmer und Daniel Meßner

Geschichten aus der Geschichte

189 Listeners

Das Wissen | SWR by SWR

Das Wissen | SWR

103 Listeners

c’t uplink - der IT-Podcast aus Nerdistan by c’t Magazin

c’t uplink - der IT-Podcast aus Nerdistan

10 Listeners

Spektrum-Podcast by detektor.fm – Das Podcast-Radio

Spektrum-Podcast

16 Listeners

Doppelgänger by Philipp Glöckler, Philipp Klöckner

Doppelgänger

13 Listeners

Alles Geschichte - Der History-Podcast by ARD

Alles Geschichte - Der History-Podcast

67 Listeners

Lanz + Precht by ZDF, Markus Lanz & Richard David Precht

Lanz + Precht

341 Listeners

KI verstehen by Deutschlandfunk

KI verstehen

12 Listeners

RONZHEIMER. by Paul Ronzheimer

RONZHEIMER.

137 Listeners

Der KI-Podcast by ARD

Der KI-Podcast

19 Listeners

KI-Update – ein heise-Podcast by Isabel Grünewald, heise online

KI-Update – ein heise-Podcast

5 Listeners

Geschichten aus der Mathematik by detektor.fm – Das Podcast-Radio

Geschichten aus der Mathematik

1 Listeners

Tech, KI & Schmetterlinge by Sascha Lobo, Schwarz Digits

Tech, KI & Schmetterlinge

1 Listeners