
Sign up to save your podcasts
Or


In dieser Folge des KI Gilde Podcasts dreht sich alles um Voxtral, ein bahnbrechendes Text-to-Speech-Modell mit 4 Milliarden Parametern. Mit einer extrem schnellen Reaktionszeit von nur 70 bis 90 Millisekunden durchbricht es bisherige Grenzen und ermöglicht durch die parallele Verarbeitung von Semantik und Akustik absolut flüssige Echtzeitgespräche.
Wir beleuchten zudem das Drama um den Release: Warum fehlte anfangs der essenzielle Codec-Encoder zum Stimmenklonen und wie hat ein einzelner Entwickler aus der Open-Source-Community dieses Problem durch Reverse Engineering in Rekordzeit selbst gelöst?
Zum Schluss gibt es unseren Praxistest: Wir verraten, warum die weibliche deutsche Stimme restlos begeistert, die männliche aber komplett durchfällt – und stellen die große Frage, ob offene Kollektive oder Großkonzerne die Zukunft der KI-Innovation kontrollieren.
By KI-GildeIn dieser Folge des KI Gilde Podcasts dreht sich alles um Voxtral, ein bahnbrechendes Text-to-Speech-Modell mit 4 Milliarden Parametern. Mit einer extrem schnellen Reaktionszeit von nur 70 bis 90 Millisekunden durchbricht es bisherige Grenzen und ermöglicht durch die parallele Verarbeitung von Semantik und Akustik absolut flüssige Echtzeitgespräche.
Wir beleuchten zudem das Drama um den Release: Warum fehlte anfangs der essenzielle Codec-Encoder zum Stimmenklonen und wie hat ein einzelner Entwickler aus der Open-Source-Community dieses Problem durch Reverse Engineering in Rekordzeit selbst gelöst?
Zum Schluss gibt es unseren Praxistest: Wir verraten, warum die weibliche deutsche Stimme restlos begeistert, die männliche aber komplett durchfällt – und stellen die große Frage, ob offene Kollektive oder Großkonzerne die Zukunft der KI-Innovation kontrollieren.