Nvidia dominiert mit Rekordzahlen und CPU-Ambitionen, während der Agent-Infrastruktur-Stack konkreter wird: Kosten, Sicherheit und Hardware-Alternativen rücken ins Zentrum für Builder.
Die Zahlen aus Nvidias jüngstem Quartalsbericht sind nicht mehr wegzudiskutieren: 81,6 Milliarden Dollar Umsatz und 75,2 Milliarden allein im Rechenzentrum-Segment — ein Plus von 20 Prozent gegenüber dem Vorquartal. Bemerkenswert ist dabei weniger das reine Zahlenwerk als die strategische Tiefe dahinter: Nvidias Beteiligungen an privaten Unternehmen stiegen im Quartal von 22 auf 43 Milliarden Dollar, getrieben durch 18,5 Milliarden in Neukäufen. Parallel dazu kündigt CEO Jensen Huang eine substanzielle Kapazitätserweiterung für Anthropic an — "our coverage for Anthropic had been largely zero until this." Huang positioniert Nvidia also nicht nur als Chiphersteller, sondern als strategisches Fundament des gesamten KI-Ökosystems. Dass der Konzern gleichzeitig mit der Vera-CPU einen neuen 200-Milliarden-Dollar-Adressierbare-Markt beansprucht, unterstreicht den Expansionsanspruch: Vera ist nach Huangs Darstellung die weltweit erste CPU, die explizit für Agentic AI gebaut wurde — designt, um Tokens so schnell wie möglich zu verarbeiten, statt klassische Multi-App-Parallelität zu optimieren. Bereits 20 Milliarden Dollar an Standalone-Vera-CPUs sollen in diesem Jahr verkauft worden sein, alle großen Hyperscaler als Partner.
Doch das Feld bleibt umkämpft. Alibaba hat mit dem Zhenwu M890 einen eigenen Agenten-Chip vorgestellt, der laut dem Unternehmen dreimal mehr Leistung als sein Vorgänger erzielt — architektonisch auf die Anforderungen von KI-Agenten zugeschnitten: hohe Memory-Bandwidth, Inter-Modell-Kommunikation und Long-Context-Retention. Die Parallelität zu Vera ist nicht zufällig: Beide Chips adressieren dieselbe Workload-Klasse. Alibaba geht dabei noch weiter und liefert eine geschlossene Plattform: eigene Silicon (T-Head), eigenes Modell (Qwen 3.7-Max, fähig zu bis zu 35 Stunden kontinuierlichem Betrieb ohne Leistungsabfall) und eigene Cloud-Delivery über Bailian. Mehr als 560.000 Zhenwu-Einheiten wurden nach eigenen Angaben bereits ausgeliefert. Während die großen Player eigene Stacks hochziehen, bleibt der Markt auch für Nischenansätze offen: Ein Entwickler hat die AMD BC-250 — eine salvaged PS5-APU mit 16 GB GDDR6 — per Treiber-Hack von 24 auf 40 aktive Compute Units entsperrt und erzielt damit 372 Tokens pro Sekunde, fast 62 Prozent mehr als im Auslieferungszustand. Für 50 bis 150 Dollar auf eBay erhältlich, adressiert die Plattform Teams, die lokale Inferenz ohne ROCm-Mainstream-Support betreiben wollen — ein Randphänomen, aber symptomatisch für den breiteren Suchprozess nach kosteneffizienter Infrastruktur.
Kosteneffizienz ist ohnehin das dominierende Thema auf der Software-Seite. Die Analyse zu Gemini 3.5 Flash zeigt exemplarisch, wie die Branche teurer wird: Der Token-Preis hat sich verdreifacht, und weil Agenten-Tasks deutlich mehr Tokens verbrauchen als klassische Abfragen, liegen die Gesamtkosten im Benchmark 75 Prozent über denen des teureren Pro-Modells Gemini 3.1. Das ist kein Google-spezifisches Problem — Anthropics Opus 4.7 legte durch höheren Token-Konsum versteckt 30 bis 40 Prozent zu, OpenAIs GPT 5.5 sogar 50 bis 90 Prozent. Der Branchentrend ist eindeutig: Roher Token-Preis taugt immer weniger als Metrik; entscheidend wird die Task-Effizienz. In diesem Kontext gewinnt ein technischer Befund an praktischer Relevanz: Schema-erzwun…