Coini Tech

Die Illusion des Denkens


Listen Later

Apple-Forscher haben frontier Reasoning-Modelle wie o3, DeepSeek-R1 und Claude Thinking mit präzise steuerbaren Puzzles getestet. Das Ergebnis ist überraschend: Es gibt drei klare Leistungsregime – und ab einer bestimmten Komplexität brechen die Modelle komplett ein. Noch auffälliger: Kurz vor dem totalen Versagen reduzieren sie ihre Denk-Anstrengung, obwohl noch reichlich Token-Budget vorhanden wäre.

In dieser Episode analysieren wir die Studie «The Illusion of Thinking», erklären die Methodik hinter den kontrollierbaren Puzzles, diskutieren die Kritik und zeigen, was die Ergebnisse für alle bedeuten, die mit fortschrittlichen KI-Systemen arbeiten oder deren tatsächliche Reasoning-Fähigkeiten besser verstehen wollen.

...more
View all episodesView all episodes
Download on the App Store

Coini TechBy N.N.