May 05, 2026

Revision 711: LLMs zuhause betreiben

1 hour 14 minutes

Wir sprechen darüber, wie man aktuelle Sprach- und Bildmodelle zu Hause betreiben kann, welche Hardware dafür realistisch ist und warum das Thema gerade zwischen Datenschutz, Kostenkontrolle und digitaler Souveränität interessant wird. Schepp erzählt von seinem Setup mit einem gebrauchten Mac Studio, LM Studio, ComfyUI, lokalen Modellen und Open WebUI als Weboberfläche für die Familie.

Dabei geht es nicht nur um die Technik, sondern auch um die Frage, wie nachhaltig die aktuellen Abo- und Credit-Modelle großer AI-Anbieter sind, wie viel RAM Modelle und Kontextfenster wirklich brauchen und wo lokale LLMs im Alltag schon nützlich sind.

Unser Sponsor

Im Webcafé, dem Podcast zu Webentwicklung, Webdesign und Unternehmenskultur, nehmen euch Felix und Kay mit auf eine spannende Reise durch die Welt moderner Softwareentwicklung. Gerade ihre unterschiedliche Perspektive macht dabei den Reiz aus: Felix schaut als Geschäftsführer der Geenen IT-Systeme GmbH auf Strategie, Führung und Unternehmensentwicklung, Kay bringt als Technical Lead den Blick auf Technik, Tools und Architektur ein. Genau daraus entstehen ehrliche, fundierte und persönliche Gespräche über Webtechnologien, Zusammenarbeit und die Herausforderungen digitaler Arbeit.

Jetzt reinhören: geenen-it-systeme.de

Shownotes

[00:01:01] LLMs zuhause betreiben

Schepp berichtet von seinem Heim-Setup für lokale KI-Modelle: Ein gebrauchter Mac Studio mit M1 Max und 32 GB RAM läuft in der Rumpelkammer und hostet unter anderem ein Gemma-Modell von Google, Bildgenerierung über ComfyUI und Open WebUI als Weboberfläche, über die auch andere Familienmitglieder zugreifen können. Motivation ist weniger ein günstigerer oder besserer Ersatz für kommerzielle Dienste, sondern eher der Wunsch, bestimmte Daten nicht an externe Anbieter ausleiten zu müssen.

Technisch landet man schnell bei Speicherfragen: Modelle müssen in den RAM passen, und zusätzlich braucht das Kontextfenster eigenen Speicher. Schepp erklärt grob die Faustregel, dass große Modelle mit vielen Parametern entsprechend viel Speicher benötigen, und dass zusätzliche Kontextlänge schnell mehrere Gigabyte belegen kann. In LM Studio lassen sich Open-Weights-Modelle wie Qwen oder Gemma von Huggingface, dem NPM der KI-Modelle, laden und austauschen. Die ganz großen Frontier-Modelle von OpenAI, Anthropic oder Google bekommt man lokal allerdings nicht.

Ein wichtiger Hebel ist Quantisierung: Statt Modelle in voller 16-Bit-Auflösung zu betreiben, werden sie auf kleinere Bitbreiten komprimiert, zum Beispiel 4 Bit. Dadurch werden sie deutlich kleiner und laufen auf erschwinglicherer Hardware, verlieren aber je nach Modell und Grad der Quantisierung an Genauigkeit. Schepp erwähnt außerdem Mixture-of-Experts-Modelle, bei denen zwar das ganze Modell im Speicher liegt, aber pro Anfrage nur ein Teil aktiv arbeitet.

Für Bildgenerierung nutzt Schepp ComfyUI, bei dem Abläufe grafisch als Knoten zusammengesteckt werden. Wir erklären, dass ComfyUI-Modelle separat verwaltet werden müssen und dass es dafür fertige Workflows und Community-Ressourcen gibt, etwa über die ComfyUI-Dokumentation zu Modellen oder Plattformen wie Civitai.

Auch die Hardwarefrage nimmt viel Raum ein. Apple-Silicon-Macs sind wegen ihres gemeinsamen Speichers attraktiv, aber externe Nvidia-GPUs funktionieren am Mac praktisch nicht sinnvoll. Nvidia-Karten bleiben für viele KI-Workloads attraktiv, sind mit viel VRAM aber teuer. Für gehostete Varianten kommen Anbieter wie mittwald mStudio AI-Hosting ins Spiel, wo Modelle direkt bereitgestellt werden können, statt selbst llama.cpp oder andere Serverkomponenten zu betreiben.

Im zweiten Teil geht es stärker um die wirtschaftliche und praktische Seite: Wir diskutieren, ob heutige AI-Abos und Credit-Systeme langfristig tragfähig sind, warum agentische Tools besonders schnell Tokens verbrauchen und wie sich die Kosten für Coding-, Bild- und Video-Tools im Alltag summieren können. Lokale Modelle wirken in diesem Kontext wie eine Mischung aus Datenschutzstrategie, Kostenexperiment und digitalem Prepping.

Zum Schluss dreht sich die Diskussion um den Einsatz von KI beim Programmieren. Schepp nutzt KI eher als Sparringspartner und möchte den erzeugten Code weiterhin verstehen können. Die Runde spricht über Slop, technische Schuld, schwer wartbaren KI-Code und die Frage, wann AI-generierter Output die eigene Fähigkeit übersteigt, ihn noch sinnvoll zu prüfen.

Links

List of large language models

Wikipedia-Übersicht über große Sprachmodelle und ihre Einordnung.

Lokale LLMs

Abschnitt im deutschen Wikipedia-Artikel zu Large Language Models über lokal betriebene Modelle.

mlx-community/gemma-4-26b-a4b-it-nvfp4

Ein quantisiertes Gemma-Modell für MLX-Setups auf Apple-Silicon-Hardware.

Open WebUI

Eine Weboberfläche, mit der sich lokale oder entfernte LLMs über ein Chat-Interface nutzen lassen.

Mistral AI

Anbieter offener und kommerzieller KI-Modelle, im Gespräch unter anderem im Kontext neuer Audio- und Sprachmodelle relevant.

Diskutiert die Folge mit uns in unserem Community-Slack: https://draft.community/