Autonome Agenten übernehmen Infrastruktur- und Coding-Workflows, während Frontier-Modelle für On-Premise und On-Device reifen. Dazu: wie KI-Slop Bug-Bounty-Programme lahmlegt und warum 340 % Kostenüberschreitungen in der LLM-Produktion zur Norm werden.
Die auffälligste Entwicklung der Woche ist, wie konsequent KI-Agenten in bislang menschlich kontrollierte Infrastruktur-Workflows eindringen. Das deutlichste Beispiel liefert die Cloudflare-Stripe-Partnerschaft für autonomes Cloud-Onboarding: Ein Agent kann nun vollständig eigenständig einen Cloud-Account anlegen, eine Domain kaufen, SSL-Zertifikate konfigurieren und eine Anwendung in die Produktion deployen — der Mensch gibt nur noch an vier Punkten sein Einverständnis: bei der initialen Stripe-Authentifizierung, der AGB-Akzeptanz, dem Billing-Setup und Merge-Entscheidungen. Kein anderer großer Cloud-Anbieter bietet vergleichbares agenten-gesteuertes Account-Provisioning. Die Architektur ist bewusst offen gehalten: Jede Plattform mit eingeloggten Nutzern kann als „Orchestrator" dieselbe Rolle übernehmen, die Stripe hier spielt. Allerdings sind die Risiken bereits konkret. Ein Entwickler dokumentierte drei Failure Modes: falsch gekaufte Domains, Retry-Schleifen, die das Stripe-Guthaben erschöpfen, und Budget-Überschreitungen von mehreren Hundert Dollar über Nacht. Dass ein monatliches Spending-Cap von 100 Dollar pro Provider voreingestellt ist, dämpft den Schaden — eliminiert ihn aber nicht.
Parallel dazu verdichtet sich das Bild bei den Coding-Agenten. Anthropic stellte auf seiner „Code with Claude 2026"-Konferenz Managed Agents vor, die mit Primitiven für Sandboxed Code Execution, Checkpointing und Credential Scoping ausgestattet sind — mit dem expliziten Argument, dass Infrastruktur, nicht Intelligenz, der eigentliche Produktionsengpass ist. CEO Dario Amodei berichtete, dass das Umsatz- und Nutzungswachstum im ersten Quartal 2026 annualisiert beim 80-Fachen liegt, statt dem geplanten 10-Fachen. Auf der anderen Seite des Markts hat OpenAI seinen Coding-Agenten Codex via Dell in hybride und On-Premise-Umgebungen gebracht — für Unternehmen, die aus Compliance-Gründen keine Daten in die Cloud senden wollen. Dass gleichzeitig Cursor mit Composer 2.5 auf Basis des Open-Source-Checkpoints Kimi K2.5 von Moonshot auf SWE-Bench Multilingual 79,8 Prozent erreicht — und damit mit Opus 4.7 und GPT-5.5 gleichzieht — bei Kosten von 0,50 Dollar pro Million Input-Tokens, zeigt, wie stark der Kostendruck auf proprietäre Frontier-Modelle wächst. Cursor trainiert bereits einen deutlich größeren Nachfolger auf dem Colossus-2-Cluster mit SpaceX und xAI, mit zehnfachem Compute-Einsatz.
Der Ausbreitungsdrang von Agenten stellt Entwickler vor konkrete Architekturentscheidungen. Simon Willisons Rückblick auf sechs Monate LLM-Entwicklung setzt den November 2025 als Inflektionspunkt, ab dem Coding-Agenten aus dem „oft funktioniert"-Stadium in den „Daily Driver"-Betrieb gewechselt sind — mit dem Nebeneffekt, dass Open-Weight-Modelle auf Consumer-Hardware salonföhig wurden. Genau diese Verschiebung treibt auch die Hardware-Entwicklung: Der neue ExecuTorch MLX Delegate bringt GPU-beschleunigte Inferenz für PyTorch-Modelle auf Apple Silicon und erzielt dabei laut PyTorch-Blog einen 3- bis 6-fachen Durchsatz-Zuwachs gegenüber bisherigen ExecuTorch-Backends auf macOS — mit Unterstützung für Llama, Qwen, Gemma und Speech-to-Text-Modelle. Auf der AMD-Seite löst ein Community-Patch für llama.cpp auf RDNA2-GPUs einen…