
Sign up to save your podcasts
Or


Send us a text
In der heutigen Sendung versuchen wir rauszufinden, ob man sich auf die öffentlichen Benchmarks zum Testen und Vergleichen von Sprachmodellen verlassen kann. Oder ob Benchmark Testdaten zum Trainieren verwendet werden. Hierbei handelt es sich um das Benchmark Leakage. Hören Sie rein.
Wir sprechen vor allem über das Paper: Benchmarking Benchmark Leakage in Large Language Models https://arxiv.org/abs/2404.18824
Support the show
By Sigurd Schacht, Carsten LanquillonSend us a text
In der heutigen Sendung versuchen wir rauszufinden, ob man sich auf die öffentlichen Benchmarks zum Testen und Vergleichen von Sprachmodellen verlassen kann. Oder ob Benchmark Testdaten zum Trainieren verwendet werden. Hierbei handelt es sich um das Benchmark Leakage. Hören Sie rein.
Wir sprechen vor allem über das Paper: Benchmarking Benchmark Leakage in Large Language Models https://arxiv.org/abs/2404.18824
Support the show

63 Listeners

200 Listeners

110 Listeners

9 Listeners

16 Listeners

13 Listeners

58 Listeners

326 Listeners

9 Listeners

115 Listeners

17 Listeners

4 Listeners

1 Listeners

1 Listeners