Working Draft

Revision 711: LLMs zuhause betreiben


Listen Later

Wir sprechen darüber, wie man aktuelle Sprach- und Bildmodelle zu Hause betreiben kann, welche Hardware dafür realistisch ist und warum das Thema gerade zwischen Datenschutz, Kostenkontrolle und digitaler Souveränität interessant wird. Schepp erzählt von seinem Setup mit einem gebrauchten Mac Studio, LM Studio, ComfyUI, lokalen Modellen und Open WebUI als Weboberfläche für die Familie.

Dabei geht es nicht nur um die Technik, sondern auch um die Frage, wie nachhaltig die aktuellen Abo- und Credit-Modelle großer AI-Anbieter sind, wie viel RAM Modelle und Kontextfenster wirklich brauchen und wo lokale LLMs im Alltag schon nützlich sind.

Unser Sponsor

Im Webcafé, dem Podcast zu Webentwicklung, Webdesign und Unternehmenskultur, nehmen euch Felix und Kay mit auf eine spannende Reise durch die Welt moderner Softwareentwicklung. Gerade ihre unterschiedliche Perspektive macht dabei den Reiz aus: Felix schaut als Geschäftsführer der Geenen IT-Systeme GmbH auf Strategie, Führung und Unternehmensentwicklung, Kay bringt als Technical Lead den Blick auf Technik, Tools und Architektur ein. Genau daraus entstehen ehrliche, fundierte und persönliche Gespräche über Webtechnologien, Zusammenarbeit und die Herausforderungen digitaler Arbeit.

Jetzt reinhören: geenen-it-systeme.de

Shownotes
[00:01:01] LLMs zuhause betreiben
Schepp berichtet von seinem Heim-Setup für lokale KI-Modelle: Ein gebrauchter Mac Studio mit M1 Max und 32 GB RAM läuft in der Rumpelkammer und hostet unter anderem ein Gemma-Modell von Google, Bildgenerierung über ComfyUI und Open WebUI als Weboberfläche, über die auch andere Familienmitglieder zugreifen können. Motivation ist weniger ein günstigerer oder besserer Ersatz für kommerzielle Dienste, sondern eher der Wunsch, bestimmte Daten nicht an externe Anbieter ausleiten zu müssen.

Technisch landet man schnell bei Speicherfragen: Modelle müssen in den RAM passen, und zusätzlich braucht das Kontextfenster eigenen Speicher. Schepp erklärt grob die Faustregel, dass große Modelle mit vielen Parametern entsprechend viel Speicher benötigen, und dass zusätzliche Kontextlänge schnell mehrere Gigabyte belegen kann. In LM Studio lassen sich Open-Weights-Modelle wie Qwen oder Gemma von Huggingface, dem NPM der KI-Modelle, laden und austauschen. Die ganz großen Frontier-Modelle von OpenAI, Anthropic oder Google bekommt man lokal allerdings nicht.

Ein wichtiger Hebel ist Quantisierung: Statt Modelle in voller 16-Bit-Auflösung zu betreiben, werden sie auf kleinere Bitbreiten komprimiert, zum Beispiel 4 Bit. Dadurch werden sie deutlich kleiner und laufen auf erschwinglicherer Hardware, verlieren aber je nach Modell und Grad der Quantisierung an Genauigkeit. Schepp erwähnt außerdem Mixture-of-Experts-Modelle, bei denen zwar das ganze Modell im Speicher liegt, aber pro Anfrage nur ein Teil aktiv arbeitet.

Für Bildgenerierung nutzt Schepp ComfyUI, bei dem Abläufe grafisch als Knoten zusammengesteckt werden. Wir erklären, dass ComfyUI-Modelle separat verwaltet werden müssen und dass es dafür fertige Workflows und Community-Ressourcen gibt, etwa über die ComfyUI-Dokumentation zu Modellen oder Plattformen wie Civitai.

Auch die Hardwarefrage nimmt viel Raum ein. Apple-Silicon-Macs sind wegen ihres gemeinsamen Speichers attraktiv, aber externe Nvidia-GPUs funktionieren am Mac praktisch nicht sinnvoll. Nvidia-Karten bleiben für viele KI-Workloads attraktiv, sind mit viel VRAM aber teuer. Für gehostete Varianten kommen Anbieter wie mittwald mStudio AI-Hosting ins Spiel, wo Modelle direkt bereitgestellt werden können, statt selbst llama.cpp oder andere Serverkomponenten zu betreiben.

Im zweiten Teil geht es stärker um die wirtschaftliche und praktische Seite: Wir diskutieren, ob heutige AI-Abos und Credit-Systeme langfristig tragfähig sind, warum agentische Tools besonders schnell Tokens verbrauchen und wie sich die Kosten für Coding-, Bild- und Video-Tools im Alltag summieren können. Lokale Modelle wirken in diesem Kontext wie eine Mischung aus Datenschutzstrategie, Kostenexperiment und digitalem Prepping.

Zum Schluss dreht sich die Diskussion um den Einsatz von KI beim Programmieren. Schepp nutzt KI eher als Sparringspartner und möchte den erzeugten Code weiterhin verstehen können. Die Runde spricht über Slop, technische Schuld, schwer wartbaren KI-Code und die Frage, wann AI-generierter Output die eigene Fähigkeit übersteigt, ihn noch sinnvoll zu prüfen.

Links
List of large language models
Wikipedia-Übersicht über große Sprachmodelle und ihre Einordnung.
Lokale LLMs
Abschnitt im deutschen Wikipedia-Artikel zu Large Language Models über lokal betriebene Modelle.
mlx-community/gemma-4-26b-a4b-it-nvfp4
Ein quantisiertes Gemma-Modell für MLX-Setups auf Apple-Silicon-Hardware.
Open WebUI
Eine Weboberfläche, mit der sich lokale oder entfernte LLMs über ein Chat-Interface nutzen lassen.
Mistral AI
Anbieter offener und kommerzieller KI-Modelle, im Gespräch unter anderem im Kontext neuer Audio- und Sprachmodelle relevant.

Diskutiert die Folge mit uns in unserem Community-Slack: https://draft.community/

...more
View all episodesView all episodes
Download on the App Store

Working DraftBy Vanessa Otto, Peter Kröner, Hans Christian Reinl, Stefan Baumgartner, Christian »Schepp« Schaefer


More shows like Working Draft

View all
Bits und so by Undsoversum GmbH

Bits und so

26 Listeners

Freak Show by Metaebene Personal Media - Tim Pritlove

Freak Show

9 Listeners

AstroGeo - Geschichten aus Astronomie und Geologie by Karl Urban und Franziska Konitzer

AstroGeo - Geschichten aus Astronomie und Geologie

4 Listeners

Geschichten aus der Geschichte by Richard Hemmer und Daniel Meßner

Geschichten aus der Geschichte

189 Listeners

c’t uplink - der IT-Podcast aus Nerdistan by c’t Magazin

c’t uplink - der IT-Podcast aus Nerdistan

10 Listeners

Stay Forever - Retrogames & Technik by Stay Forever Team

Stay Forever - Retrogames & Technik

36 Listeners

Logbuch:Netzpolitik by Metaebene Personal Media - Tim Pritlove

Logbuch:Netzpolitik

5 Listeners

programmier.bar – der Podcast für App- und Webentwicklung by programmier.bar

programmier.bar – der Podcast für App- und Webentwicklung

0 Listeners

Podcasts von Tichys Einblick by Tichys Einblick

Podcasts von Tichys Einblick

21 Listeners

eat.READ.sleep. Bücher für dich by NDR

eat.READ.sleep. Bücher für dich

28 Listeners

Finanzen ganz einfach - von Saidi, Sophie & Emil by Finanztip

Finanzen ganz einfach - von Saidi, Sophie & Emil

11 Listeners

Lanz + Precht by ZDF, Markus Lanz & Richard David Precht

Lanz + Precht

339 Listeners

{ungeskriptet} - Gespräche, die dich weiter bringen by Ben Berndt

{ungeskriptet} - Gespräche, die dich weiter bringen

32 Listeners

KI-Update – ein heise-Podcast by Isabel Grünewald, heise online

KI-Update – ein heise-Podcast

5 Listeners

Engineering Kiosk by Wolfgang Gassler, Andy Grunwald

Engineering Kiosk

0 Listeners