
Sign up to save your podcasts
Or


In Folge 137 des KI Gilde Podcasts dreht sich alles um die "Time to First Token" – die entscheidende Wartezeit, bevor ein lokales KI-Sprachmodell die erste Silbe generiert. Wir beleuchten, was in der rechenintensiven Prefill-Phase passiert und warum der Aufbau des sogenannten Key-Value-Caches als Gedächtnis des Modells bei großen Kontexten schnell über 80 GB Arbeitsspeicher verschlingt.
Zudem vergleichen wir Hardware-Architekturen: Erfahre, warum Nvidias isolierter Grafikspeicher bei riesigen Datenmengen durch den PCI-Express-Bus zum Flaschenhals wird, während Apples Unified Memory Architecture durch das Zero-Copy-Prinzip punktet und Latenzen minimiert. Abschließend diskutieren wir, ob der Key-Value-Cache bei zukünftigen Kontextfenstern von 10 Millionen Wörtern eine technologische Sackgasse darstellt.
By KI-GildeIn Folge 137 des KI Gilde Podcasts dreht sich alles um die "Time to First Token" – die entscheidende Wartezeit, bevor ein lokales KI-Sprachmodell die erste Silbe generiert. Wir beleuchten, was in der rechenintensiven Prefill-Phase passiert und warum der Aufbau des sogenannten Key-Value-Caches als Gedächtnis des Modells bei großen Kontexten schnell über 80 GB Arbeitsspeicher verschlingt.
Zudem vergleichen wir Hardware-Architekturen: Erfahre, warum Nvidias isolierter Grafikspeicher bei riesigen Datenmengen durch den PCI-Express-Bus zum Flaschenhals wird, während Apples Unified Memory Architecture durch das Zero-Copy-Prinzip punktet und Latenzen minimiert. Abschließend diskutieren wir, ob der Key-Value-Cache bei zukünftigen Kontextfenstern von 10 Millionen Wörtern eine technologische Sackgasse darstellt.