
Sign up to save your podcasts
Or


Send us a text
In dieser spannenden Folge von Knowledge Science tauchen Sigurd Schacht und Carsten Lanquillon tief in die Welt der Benchmarks und Evaluierungsmethoden für KI ein. Wie weit sind wir noch von einer KI, die menschliche Aufgaben vollumfänglich ersetzen kann? Welche Faktoren beeinflussen die Messbarkeit von KI-Leistung? Und welche Rolle spielen Reasoning-Modelle in der Zukunft der künstlichen Intelligenz? Entdecken Sie faszinierende Erkenntnisse und diskutierte Prognosen über den aktuellen Stand und die zukünftige Entwicklung von KI.
Paper in dieser Episode: https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/
Support the show
By Sigurd Schacht, Carsten LanquillonSend us a text
In dieser spannenden Folge von Knowledge Science tauchen Sigurd Schacht und Carsten Lanquillon tief in die Welt der Benchmarks und Evaluierungsmethoden für KI ein. Wie weit sind wir noch von einer KI, die menschliche Aufgaben vollumfänglich ersetzen kann? Welche Faktoren beeinflussen die Messbarkeit von KI-Leistung? Und welche Rolle spielen Reasoning-Modelle in der Zukunft der künstlichen Intelligenz? Entdecken Sie faszinierende Erkenntnisse und diskutierte Prognosen über den aktuellen Stand und die zukünftige Entwicklung von KI.
Paper in dieser Episode: https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/
Support the show

66 Listeners

202 Listeners

107 Listeners

8 Listeners

17 Listeners

13 Listeners

61 Listeners

345 Listeners

11 Listeners

126 Listeners

17 Listeners

4 Listeners

1 Listeners

3 Listeners