Health-AI bekommt erstmals staatliche Abrechnungsgrundlage, Inferenz-Infrastruktur wird neu verteilt – und die Tool-Landschaft für Builder verdichtet sich rasant. Dazu: Sicherheitswarnung für Hugging-Face-Nutzer und ein klarer Blick auf steigende KI-Kosten trotz sinkender Token-Preise.
Die wichtigste strukturelle Nachricht der Woche kommt aus Washington: Mit dem Medicare-Programm ACCESS schafft die Centers for Medicare & Medicaid Services erstmals einen staatlichen Abrechnungsmechanismus, der KI-Agenten in der chronischen Krankheitsversorgung direkt vergütet — nicht die Zeit eines Klinikers, sondern messbare Gesundheitsergebnisse wie gesenkten Blutdruck oder reduzierte Schmerzwerte. Das zehnjährige Programm startet am 5. Juli mit 150 Teilnehmern, darunter KI-Arzt-Startups, Wearable-Hersteller und Pair Team, das seit 2019 einkommensschwache Patientengruppen mit einem Modell betreut, das medizinische, verhaltensbezogene und soziale Versorgung verbindet. Parallel dazu schließt Isomorphic Labs eine Series-B-Runde über 2,1 Milliarden Dollar ab, geführt von Thrive Capital und mit Beteiligung von Alphabet, GV, Temasek und dem UK Sovereign AI Fund — der Fokus liegt auf dem Ausbau der hauseigenen KI-Plattform IsoDDE und dem Vorrücken in klinische Studien. Zusammen signalisieren beide Entwicklungen: Health-AI verlässt die Experimentierphase und tritt in den regulierten Regelbetrieb ein.
Auf der Infrastrukturseite verdichten sich gleich drei Bewegungen. Das Startup SPAN schlägt mit seinem XFRA-Konzept für Mini-Rechenzentren an Privathäusern einen radikal dezentralen Weg vor: Liquid-gekühlte Nvidia-RTX-Pro-6000-Blackwell-GPUs sollen direkt neben Wohnhäusern betrieben werden, finanziert durch SPAN, das im Gegenzug Strom- und Internetrechnungen der Bewohner übernimmt. 8.000 solcher Units sollen laut Unternehmensangaben fünfmal günstiger sein als ein vergleichbarer 100-Megawatt-Datencenter-Bau — das Netz ist für Inferenz-Workloads konzipiert, nicht für Training. Architekturseitig gewinnen State Space Models dabei an Relevanz: Sie bieten lineare statt quadratischer Skalierung bei langen Sequenzen und eliminieren den KV-Cache, der bei 70B-Modellen allein 40 GB VRAM beanspruchen kann — ein konkreter Produktionsvorteil, den SPAN-artige Distributed-Inferenz-Netzwerke direkt nutzen könnten. Und das medizinische Open-Source-Modell AntAngelMed mit 103 Milliarden Parametern demonstriert, was MoE-Architektur in der Praxis bedeutet: Nur 6,1 Milliarden Parameter sind zur Inferenzzeit aktiv, auf H20-Hardware werden dabei über 200 Tokens pro Sekunde erreicht — ein Wert, den die Forscher als dreimal schneller als ein vergleichbares 36B-Dense-Modell angeben.
Für Builder verschiebt sich indes die Werkzeuglandschaft spürbar. Vercel liefert diese Woche zwei bemerkenswert unterschiedliche Produktentscheidungen: Den Fast Mode für Claude Opus 4.7 im AI Gateway, der 2,5-fach schnellere Output-Token-Generierung verspricht, aber mit 150 Dollar pro Million Output-Tokens das Sechsfache des Standardtarifs kostet — ein Angebot klar für Throughput-kritische, nicht kostensensitive Szenarien. Gleichzeitig erlaubt Vercels neues WAF-Feature das Erstellen von Firewall-Regeln per natürlicher Sprache, von Rate-Limiting über Geo-Blocking bis zur Sperrung bekannter Bot-Pfade wie /wp-admin — ohne tiefes WAF-Fachwissen. Dass OpenAI seine Finetuning-APIs depreciert, liest sich in diesem Kontext wie eine Konsolidierungsbewegung: Die breite Masse der AI-Builder bewegt sich weg von Finetun…