Agent-Infrastruktur und Modellkosten dominieren heute: DeepSeek zwingt die Branche zur Preisdiskussion, während neue Tools für lokale Agent-Gedächtnisse und Workflow-Orchestrierung reif für den Einsatz werden. Dazu: warum OCR Vision-LLMs bei PDFs schlägt und Anthropics selbstkritische Warnung vor der Bug-Patch-Lücke.
Die Preisdiskussion, die DeepSeeks V4-Pro-Rabatte ausgelöst haben, bekommt mit dem dauerhaften 75-Prozent-Rabatt auf V4-Pro eine neue Qualität. Output-Token kosten bei DeepSeek V4-Pro nun $0,87 pro Million — verglichen mit $30 bei GPT-5.5 und $25 bei Anthropics Opus 4.7, was einem Faktor von bis zu 34,5 auf der Output-Seite entspricht. Gegen GPT-5.5 im Long-Context-Modus (über 272.000 Token) weitet sich der Preisabstand auf das gut 51-fache. Entscheidend für die Einordnung: Rohe Token-Preise sagen wenig, wenn das günstigere Modell deutlich mehr Token pro Aufgabe verbraucht — ein Phänomen, das The Decoder am Beispiel von Google Gemini Flash 3.5 und Anthropics Opus 4.7 dokumentiert. DeepSeek trail dennoch klar hinter den Frontier-Modellen GPT-5.5 und Opus 4.7 in der Rohleistung. Dennoch verschiebt sich für token-intensive Agentensysteme der betriebswirtschaftliche Kalkül: Viele Unternehmen dürften zur günstigsten Lösung wechseln, die noch „gut genug" ist — zumal der ROI auf KI-Ausgaben weiterhin schwer zu messen bleibt. DeepSeek steht dabei unter deutlich weniger Umsatzdruck als OpenAI oder Anthropic, die beide auf IPO-Kurs sind.
Genau dieser Preisdruck macht die parallele Welle an Open-Source-Infrastruktur für Agentensysteme strategisch relevant. Tencents TencentDB Agent Memory bringt ein lokales, vierstufiges Gedächtnissystem — von Rohdialogen (L0) bis zu Nutzer-Personas (L3) — das vollständig ohne Cloud-API auskommt und SQLite als Standard-Backend nutzt. Laut Tencents eigenen Evaluierungen steigt die PersonaMem-Genauigkeit dabei von 48 auf 76 Prozent, während der Token-Verbrauch auf WideSearch um über 61 Prozent sinkt. Das ergänzt sich mit dem SuperClaude Framework, das auf der Anthropic API eine strukturierte Orchestrierungsschicht mit Commands, Agents und persistentem Session-Gedächtnis aufsetzt — ohne eigene Infrastruktur von Grund auf aufzubauen. Und wer Multi-Agent-Workflows auf dem Trading-Sektor im Blick hat, findet mit der neuen Web-GUI für TradingAgents eine lokale, Apache-2.0-lizenzierte Oberfläche mit Live-Pipeline-Visualisierung und einem Concise-Modus, der laut Entwickler rund 50 Prozent Token einspart — kompatibel unter anderem mit Ollama, OpenAI, Anthropic und DeepSeek.
Während die Tooling-Schicht reift, schärft sich das Bild bei der Datenverarbeitung: Ein Benchmark auf 30 bildlastigen PDFs aus MMLongBench-Doc zeigt, dass OCR Vision-LLMs bei Dokumenten-QA klar übertrifft. LlamaCloud Premium erreichte 59,6 Prozent Genauigkeit, während Native PDF (Vision) bei 52,0 Prozent landete — und dabei die höchsten Kosten verursachte. Besonders ins Gewicht fällt eine 7-Prozent-irreparable Fehlerrate bei großen PDFs im Native-PDF-Ansatz. Für Entwickler von Dokumenten-Pipelines mit Charts und Tabellen ist die Schlussfolgerung klar: OCR mit Layout-Extraktion ist günstiger, zuverlässiger und akkurater. Parallel dazu erweitert Google Cloud mit Cross-Engine Iceberg-Support in BigQuery die Datenbasis für solche Pipelines: Ein serverloser Iceberg-REST-Katalog erlaubt es, dieselben Tabellen in BigQuery, Spark, Flink und Trino zu lesen und zu schreiben — ohne Datenkopien oder proprietäre Formate. Google hat den Support inzwi…