
Sign up to save your podcasts
Or


Send us Fan Mail
In der heutigen Sendung versuchen wir rauszufinden, ob man sich auf die öffentlichen Benchmarks zum Testen und Vergleichen von Sprachmodellen verlassen kann. Oder ob Benchmark Testdaten zum Trainieren verwendet werden. Hierbei handelt es sich um das Benchmark Leakage. Hören Sie rein.
Wir sprechen vor allem über das Paper: Benchmarking Benchmark Leakage in Large Language Models https://arxiv.org/abs/2404.18824
Support the show
By Sigurd Schacht, Carsten LanquillonSend us Fan Mail
In der heutigen Sendung versuchen wir rauszufinden, ob man sich auf die öffentlichen Benchmarks zum Testen und Vergleichen von Sprachmodellen verlassen kann. Oder ob Benchmark Testdaten zum Trainieren verwendet werden. Hierbei handelt es sich um das Benchmark Leakage. Hören Sie rein.
Wir sprechen vor allem über das Paper: Benchmarking Benchmark Leakage in Large Language Models https://arxiv.org/abs/2404.18824
Support the show

62 Listeners

189 Listeners

103 Listeners

10 Listeners

16 Listeners

13 Listeners

67 Listeners

341 Listeners

12 Listeners

137 Listeners

19 Listeners

5 Listeners

1 Listeners

1 Listeners