
Sign up to save your podcasts
Or


Apple-Forscher haben frontier Reasoning-Modelle wie o3, DeepSeek-R1 und Claude Thinking mit präzise steuerbaren Puzzles getestet. Das Ergebnis ist überraschend: Es gibt drei klare Leistungsregime – und ab einer bestimmten Komplexität brechen die Modelle komplett ein. Noch auffälliger: Kurz vor dem totalen Versagen reduzieren sie ihre Denk-Anstrengung, obwohl noch reichlich Token-Budget vorhanden wäre.
In dieser Episode analysieren wir die Studie «The Illusion of Thinking», erklären die Methodik hinter den kontrollierbaren Puzzles, diskutieren die Kritik und zeigen, was die Ergebnisse für alle bedeuten, die mit fortschrittlichen KI-Systemen arbeiten oder deren tatsächliche Reasoning-Fähigkeiten besser verstehen wollen.
By N.N.Apple-Forscher haben frontier Reasoning-Modelle wie o3, DeepSeek-R1 und Claude Thinking mit präzise steuerbaren Puzzles getestet. Das Ergebnis ist überraschend: Es gibt drei klare Leistungsregime – und ab einer bestimmten Komplexität brechen die Modelle komplett ein. Noch auffälliger: Kurz vor dem totalen Versagen reduzieren sie ihre Denk-Anstrengung, obwohl noch reichlich Token-Budget vorhanden wäre.
In dieser Episode analysieren wir die Studie «The Illusion of Thinking», erklären die Methodik hinter den kontrollierbaren Puzzles, diskutieren die Kritik und zeigen, was die Ergebnisse für alle bedeuten, die mit fortschrittlichen KI-Systemen arbeiten oder deren tatsächliche Reasoning-Fähigkeiten besser verstehen wollen.