
Sign up to save your podcasts
Or


Send us Fan Mail
In dieser spannenden Folge von Knowledge Science tauchen Sigurd Schacht und Carsten Lanquillon tief in die Welt der Benchmarks und Evaluierungsmethoden für KI ein. Wie weit sind wir noch von einer KI, die menschliche Aufgaben vollumfänglich ersetzen kann? Welche Faktoren beeinflussen die Messbarkeit von KI-Leistung? Und welche Rolle spielen Reasoning-Modelle in der Zukunft der künstlichen Intelligenz? Entdecken Sie faszinierende Erkenntnisse und diskutierte Prognosen über den aktuellen Stand und die zukünftige Entwicklung von KI.
Paper in dieser Episode: https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/
Support the show
By Sigurd Schacht, Carsten LanquillonSend us Fan Mail
In dieser spannenden Folge von Knowledge Science tauchen Sigurd Schacht und Carsten Lanquillon tief in die Welt der Benchmarks und Evaluierungsmethoden für KI ein. Wie weit sind wir noch von einer KI, die menschliche Aufgaben vollumfänglich ersetzen kann? Welche Faktoren beeinflussen die Messbarkeit von KI-Leistung? Und welche Rolle spielen Reasoning-Modelle in der Zukunft der künstlichen Intelligenz? Entdecken Sie faszinierende Erkenntnisse und diskutierte Prognosen über den aktuellen Stand und die zukünftige Entwicklung von KI.
Paper in dieser Episode: https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/
Support the show

62 Listeners

189 Listeners

103 Listeners

10 Listeners

16 Listeners

13 Listeners

67 Listeners

341 Listeners

12 Listeners

137 Listeners

19 Listeners

5 Listeners

1 Listeners

1 Listeners