July 02, 2026

Lumeric Briefing · 2026-07-02

4 minutes

Agenteninfrastruktur und Inferenz-Optimierung dominieren heute: AWS baut End-to-End-Cloud-Stack für Agenten, während Anthropic mit einem Vertrauensschaden auffällt. Dazu: Cloudflares Crawler-Ultimatum zwingt AI-Firmen zur Neu-Architektur ihrer Web-Zugriffe.

Die Agenteninfrastruktur-Debatte der Woche lässt sich an zwei Polen ablesen: AWS baut einen vollständigen Cloud-Stack für produktive Agenten, während das Vertrauen in Anthropic – einen der zentralen Modelllieferanten dieses Stacks – gerade Schaden nimmt. Mit AWS Strands und AgentCore hat Amazon ein eng verzahntes Duo im Markt: Strands übernimmt die Agent-Logik (LLM, Tools, Gesprächskontext, Agent-Loop) und ist framework-agnostisch als Open-Source-Bibliothek verfügbar, während AgentCore die Infrastrukturseite löst – Hosting, Memory, Gateway, Observability. Das Besondere: AgentCore kann auch Agenten anderer Frameworks wie LangChain oder den OpenAI Agents SDK hosten. Zur gleichen Zeit zeigt der Anthropic-Vorfall um Claude Code, wie fragil Vertrauen in KI-Werkzeuge ist: Seit Version 2.1.91 vom 2. April 2026 überprüfte Claude Code heimlich, ob Nutzer sich in China befinden oder über chinesische Proxies verbinden – und übermittelte das Ergebnis über steganografische Veränderungen im System-Prompt, verschleiert durch XOR-Verschlüsselung mit Schlüssel 91. Anthropic beschrieb das intern als Experiment zur Missbrauchsverhinderung durch unautorisierte Reseller; die Changelog-Einträge der betroffenen Version schwiegen dazu. Das Unternehmen hat den Rollback inzwischen eingespielt. Parallel dazu ist Claude Fable 5 auf Vercels AI Gateway nach Aufhebung der US-Exportkontrollmaßnahmen wieder verfügbar – allerdings mit dem Hinweis, dass Coding- und Debugging-Anfragen derzeit Safety-Classifier auslösen können und Zero Data Retention für dieses Modell nicht unterstützt wird. Prompts und Completions werden 30 Tage lang gespeichert.

Während AWS den Cloud-Stack zusammenzieht, arbeitet die Research-Community an den Innereien der Agent-Architektur. Die Inductive Latent Context Persistence (ILCP) adressiert ein strukturelles Problem in Multi-Hop-Pipelines: Bisher wirft jeder Agenten-Handover den aufgebauten KV-Cache des vorherigen Agenten weg und baut den Kontext aus einem Prompt-String neu auf – teuer in Latenz und Tokens. Der Ansatz komprimiert den Zustand des sendenden Agenten mit einem β-VAE in ein kleines latentes Payload, das als Soft-Prompt-Prefix beim Empfänger eingesetzt wird. Die Benchmarks im Artikel stammen explizit aus dem 6G-Radiohandover-Bereich (Ursprungsdomäne des Papers, akzeptiert bei AI4NextG @ ICML 2026); agentenseitige Zahlen sind noch offenes Forschungsprogramm. Auf der Inferenzseite zeigt ein Community-Beitrag zu Ornith 35B FP8 mit MTP-Drafter, was auf Hopper/Ada-Hardware bereits heute möglich ist: Multi-Token-Prediction per Grafting ergibt 18 % Speedup bei 70 % Drafter-Akzeptanzrate auf RTX-Setups mit über 80 GB VRAM – Skript und vLLM-Container sind öffentlich verfügbar. Ergänzt wird diese Perspektive durch Introspection und das Autoresearch-Framework: Roland Gavrilescu, Co-Founder und CEO, beschreibt auf dem AI Engineer World's Fair drei Produktionsmuster – erstens, dass der Feedback-Loop selbst das Produkt ist; zweitens, dass portable „Agent Recipes" (Bundles aus Evals, Judges, Signal-Processing und Failure-History) Agenten eine schrittweise Selbstoptimierung erlauben; drittens, dass das Ziel die Destillation von Frontier-Modell-Fähigkeiten in eigene, günstigere Systeme ist.

D…

...more

View all episodes

By Lumeric

July 02, 2026

Lumeric Briefing · 2026-07-02

4 minutes

D…

...more

Share Lumeric Briefing · 2026-07-02

Sign up to save your podcasts

Lumeric Briefing · 2026-07-02

Lumeric Briefing · 2026-07-02