Prompt und Antwort

137 - Time to first Token


Listen Later

In Folge 137 des KI Gilde Podcasts dreht sich alles um die "Time to First Token" – die entscheidende Wartezeit, bevor ein lokales KI-Sprachmodell die erste Silbe generiert. Wir beleuchten, was in der rechenintensiven Prefill-Phase passiert und warum der Aufbau des sogenannten Key-Value-Caches als Gedächtnis des Modells bei großen Kontexten schnell über 80 GB Arbeitsspeicher verschlingt.

Zudem vergleichen wir Hardware-Architekturen: Erfahre, warum Nvidias isolierter Grafikspeicher bei riesigen Datenmengen durch den PCI-Express-Bus zum Flaschenhals wird, während Apples Unified Memory Architecture durch das Zero-Copy-Prinzip punktet und Latenzen minimiert. Abschließend diskutieren wir, ob der Key-Value-Cache bei zukünftigen Kontextfenstern von 10 Millionen Wörtern eine technologische Sackgasse darstellt.

...more
View all episodesView all episodes
Download on the App Store

Prompt und AntwortBy KI-Gilde