May 22, 2026

Lumeric Briefing · 2026-05-22

4 minutes

Agent-Infrastruktur und neue Modell-Releases dominieren heute: Alibabas Qwen3.7-Max, Microsofts MagenticLite und Daytonas Bare-Metal-Sandboxes zeigen, wie der Agentic-Stack reift. Dazu: regulatorische Signale vom FTC, Spotify betritt den KI-Audio-Markt und Nvidia setzt die Chip-Roadmap neu.

Der Agentic-Stack verdichtet sich dieser Tage auf allen Ebenen gleichzeitig — von der Infrastruktur über die Modelle bis zur Protokollschicht. Am deutlichsten sichtbar wird das bei Daytona, dessen CEO Ivan Burazin die Zahlen einer Plattform präsentiert, die Agenten buchstäblich mit Computern ausstattet: 74 % monatliches Wachstum, 850.000 tägliche Sandbox-Runs beim größten Kunden, Spin-up-Zeit von ~60 ms pro Sandbox und bis zu 50.000 Instanzen in ~75 Sekunden. Besonders aufschlussreich ist die Verschiebung im Nutzungsmix — RL- und Eval-Workloads machen mittlerweile rund 50 % der Daytona-Nutzung aus, obwohl dieser Anteil noch vor wenigen Monaten bei null lag. Das erzeugt CPU-Spitzen von null auf 100.000, die klassische Kubernetes-Architekturen überfordern. Daytona setzt deshalb auf Bare Metal mit eigenem Scheduler statt auf EKS oder GKS. Auf der Protokollseite versucht CopilotKit mit AG-UI, AIMock und Pathfinder eine komplementäre Lücke zu schließen: AG-UI adressiert als Interaktionsschicht zwischen Nutzer, Applikation und Agent genau den Bereich, den MCP und A2A offen lassen. Das Protokoll ist bereits von Google, Microsoft, Amazon und Oracle sowie Frameworks wie LangChain, Mastra und PydanticAI unterstützt; AWS hat AG-UI in sein FAST-Template und Bedrock AgentCore integriert.

Auf der Modellseite hat Alibaba zum Alibaba Cloud Summit 2026 Qwen3.7-Max vorgestellt: ein proprietäres, rein textbasiertes Reasoning-Flaggschiff mit 1-Million-Token-Kontextfenster — eine Vervierfachung gegenüber dem Vorgänger Qwen3.6 Max Preview. Im Artificial Analysis Intelligence Index erzielt das Modell 56,6 Punkte (Platz 5 unter proprietären Modellen), ein Gewinn von 4,8 Punkten und ein Vorsprung vor Googles Gemini 3.5 Flash. Der Extended-Thinking-Mode erzeugt dabei rund 97 Millionen Output-Tokens gegenüber einem Benchmark-Durchschnitt von 24 Millionen — ein Hinweis auf die Latenz-Kompromisse bei einfacheren Aufgaben. Microsoft geht einen anderen Weg: MagenticLite kombiniert MagenticBrain und Fara1.5 zu einem agentic System, das explizit für kleine Modelle ausgelegt ist. Fara1.5 kommt in drei Größen, das Flaggschiff hat 9 Milliarden Parameter und setzt neue State-of-the-Art-Ergebnisse unter kleinen Computer-Use-Modellen. Die Grundthese lautet: Agentic-Fähigkeit hängt von Werkzeugorchestrierung und Aktion ab — nicht allein vom Modellwissen. Ein lokaler Benchmark aus der r/LocalLLaMA-Community ergänzt das Bild: Im direkten Vergleich auf MySQL-Codegenerierung schlug Gemma4 31B Dense alle getesteten Qwen3.6-Varianten — sowohl 35B MoE als auch 27B Dense — und war dabei schneller als Qwen3.6 27B. Für Entwickler, die lokal betriebene SQL-Pipelines planen, ist das ein konkreter Datenpunkt.

Während der Stack reift, wird die Frage nach Rechenleistung strategischer. Nvidia-CEO Jensen Huang bezeichnete auf dem Analysten-Call zum Q1-Ergebnis (81,62 Mrd. US-Dollar Umsatz, Q2-Guidance bei 91 Mrd.) den Vera-Chip als Einstieg in einen 200-Milliarden-Dollar-Markt jenseits der bestehenden GPU-Roadmap. Vera-Umsätze sollen bis Ende des Fiskaljahres 20 Mrd. US-Dollar erreichen. Der Chip zielt auf Inferenz-Workloads — exakt die Domäne, in der Googles TPUs, Amazons Trainium und andere Custom …

...more

View all episodes

By Lumeric

May 22, 2026

Lumeric Briefing · 2026-05-22

4 minutes

...more

Share Lumeric Briefing · 2026-05-22

Sign up to save your podcasts

Lumeric Briefing · 2026-05-22

Lumeric Briefing · 2026-05-22