March 11, 2026

134 - Qwen 3.5

14 minutes

In Episode 134 des KI Gilde Podcasts klären wir, ob das neue Modell Qwen 3.5 die ultimative Allzweckwaffe für die lokale Ausführung auf dem eigenen Rechner ist. Wir analysieren die Architektur des gigantischen, multimodalen Sprachmodells, das mit 36 Billionen Token trainiert wurde und nativ 2011 Sprachen sowie komplexe Dokumentenlayouts versteht.

Die Highlights der Folge:

Architektur & Skalierbarkeit: Wir vergleichen klassische "dichte" Modelle mit effizienten "Mixture of Experts"-Ansätzen (MoE) und beleuchten das Größenspektrum von 0,6 bis hin zu 397 Milliarden Parametern.

Speicher & Geschwindigkeit: Erfahre, wie durch spezielle Architektur-Hacks ein gigantisches Kontextfenster von 262.144 Token erreicht wird und wie "Multi-Token Prediction" die Textausgabe extrem beschleunigt.

Multimodalität durch "Early Fusion": Warum Qwen 3.5 Text, Bilder und Programmcode von der ersten Schicht an gemeinsam lernt und klassische Texterkennung (OCR) überflüssig macht.

Lokale Hardware-Revolution: Wie Werkzeuge wie Unsloth (intelligente Quantisierung) und llama.cpp es möglich machen, massive Modelle lokal auf handelsüblichen Consumer-Grafikkarten oder Apple-Geräten auszuführen und sogar zu trainieren.

Praxis-Hürden & "Thinking Mode": Wir besprechen die Tücken der lokalen Ausführung und warum der neue "Denkmodus" des Modells aktuelle Software-Schnittstellen (Parser) überfordert und oft zu Endlosschleifen führt.

Ein tiefer Blick in die Mechaniken der lokalen KI-Inferenz und ein Paradigmenwechsel für die Zukunft der Softwareentwicklung!

...more

View all episodes

By KI-Gilde

March 11, 2026

134 - Qwen 3.5

14 minutes

Die Highlights der Folge:

Architektur & Skalierbarkeit: Wir vergleichen klassische "dichte" Modelle mit effizienten "Mixture of Experts"-Ansätzen (MoE) und beleuchten das Größenspektrum von 0,6 bis hin zu 397 Milliarden Parametern.

Speicher & Geschwindigkeit: Erfahre, wie durch spezielle Architektur-Hacks ein gigantisches Kontextfenster von 262.144 Token erreicht wird und wie "Multi-Token Prediction" die Textausgabe extrem beschleunigt.

Multimodalität durch "Early Fusion": Warum Qwen 3.5 Text, Bilder und Programmcode von der ersten Schicht an gemeinsam lernt und klassische Texterkennung (OCR) überflüssig macht.

Lokale Hardware-Revolution: Wie Werkzeuge wie Unsloth (intelligente Quantisierung) und llama.cpp es möglich machen, massive Modelle lokal auf handelsüblichen Consumer-Grafikkarten oder Apple-Geräten auszuführen und sogar zu trainieren.

Praxis-Hürden & "Thinking Mode": Wir besprechen die Tücken der lokalen Ausführung und warum der neue "Denkmodus" des Modells aktuelle Software-Schnittstellen (Parser) überfordert und oft zu Endlosschleifen führt.

Ein tiefer Blick in die Mechaniken der lokalen KI-Inferenz und ein Paradigmenwechsel für die Zukunft der Softwareentwicklung!

...more

Share 134 - Qwen 3.5

Sign up to save your podcasts

134 - Qwen 3.5

134 - Qwen 3.5