Diffusions-LLMs und lokale Inferenz dominieren heute die Builder-Front — dazu: Googles SEO-Ansage, xAIs Terminal-Agent und die Frage, wie KI-Agenten in echten Engineering-Systemen Einzug halten.
Die wohl auffälligste technische Entwicklung des Tages kommt aus der Diffusions-LLM-Forschung. Ein Reddit-Nutzer hat Open-dLLM auf Qwen3.6 portiert und simulierte Benchmarks von bis zu 3.238 Tokens pro Sekunde auf einer RTX 5090 veröffentlicht — allerdings mit untrainierten Gewichten, was die Qualitätsfrage offen lässt. Parallel dazu liefert das San Francisco-basierte Labor Zyphra eine produktionsreifere Antwort: ZAYA1-8B-Diffusion-Preview ist das erste MoE-Diffusionsmodell, das aus einem bestehenden autoregressiven LLM konvertiert wurde — ohne systematischen Qualitätsverlust, mit bis zu 7,7-fachem Inferenz-Speedup auf AMD-Hardware. Der entscheidende Mechanismus: Diffusionsmodelle generieren einen Block von N Tokens gleichzeitig, wodurch die KV-Cache-Last geteilt wird und das System von Memory-Bandwidth-bound auf Compute-bound wechselt — ein direkter Vorteil auf modernen GPUs, deren FLOP-Skalierung die Speicherbandbreite längst überholt hat. Zyphra baute dabei auf dem TiDAR-Rezept auf und trainierte mit 600 Milliarden Tokens für die Diffusions-Konvertierung sowie weiteren 500 Milliarden Tokens für die Kontexterweiterung auf 128k. Der Befund: Training ohnehin schon Compute-bound ist, weshalb sich der Diffusions-Ansatz rein auf die Inferenzseite konzentriert.
Wer diese Modelle lokal betreiben will, steht vor der klassischen Auswahl-Frage. Das CLI-Tool whichllm adressiert genau dieses Problem: Es kombiniert Benchmarks aus LiveBench, Chatbot Arena, Aider und weiteren Quellen, erkennt automatisch die eigene Hardware und rankt Modelle nach echter Benchmarkqualität statt nach bloßer VRAM-Füllgröße — auf einer RTX 4090 etwa landet Qwen3.6-27B auf Platz eins, obwohl ein 32B-Modell ebenfalls in den Speicher passen würde. Wer hardwareübergreifende Flexibilität auf dem Mac sucht, bekommt mit Osaurus eine konsumentenfreundlichere Alternative: Das Open-Source-Tool verbindet lokale Modelle mit Cloud-Anbietern über eine einheitliche Oberfläche, führt Operationen in einer hardware-isolierten virtuellen Sandbox aus und unterstützt als vollwertiger MCP-Server über 20 native Plugins. Für größere lokale Modelle wie DeepSeek V4 empfiehlt Gründer Terence Pae mindestens 128 GB RAM — ein Reminder, dass lokales Inferenzieren noch immer Hardware-intensive Voraussetzungen hat.
Im Coding-Agenten-Markt verdichtet sich der Wettbewerb weiter. xAI bringt mit Grok Build einen ersten terminalbasierten Coding-Agenten — mit Plan-Modus, Diff-Vorschau, parallelen Sub-Agenten und Headless-Modus, aktuell in früher Beta und ausschließlich für SuperGrok-Heavy-Abonnenten. Der Launch ist ein spätes Eintreten in einen Markt, den Anthropic mit Claude Code definiert hat. Wie Anthropic intern mit dem Tempo umgeht, erklärt Claude-Code-Produktchefin Cat Wu im Ars-Technica-Interview: Die Teams durchlaufen Entwicklungszyklen von etwa einer Woche, eine feste Roadmap existiert bewusst nicht — Modellverbesserungen würden jeden langfristigen Plan schnell überholen. CEO Dario Amodei hatte auf der Code-with-Claude-Konferenz erklärt, man habe für 10-faches Wachstum pro Jahr geplant, aber 80-faches erlebt. Wer Claude Code bereits intensiv nutzt, findet in einem Cron-Job-basierten Self-Review-Ansatz einen praktischen Hebel: Ein nächtlich um 2 Uhr ausgeführter Review-Lauf analysiert die letzten 24 Stu…