
Sign up to save your podcasts
Or


Wie hat dir die Folge gefallen?
Gut 👍
Schlecht 👎
(Keine Anmeldung erforderlich)
Auphonic gehört für viele Podcast-Workflows längst zum Standard, aber wie baut man eigentlich ein Produkt, das Audio automatisch „gut“ klingen lässt? In dieser Deep-Dive-Folge sprechen wir mit Georg Holzmann über die Entstehungsgeschichte hinter Auphonic und warum die Idee ursprünglich aus einem ganz einfachen Problem kam: schlechte Audioqualität bei Podcasts.
Aus einem Mix von Audio-Engineering, Informatik und Machine Learning entsteht ein Tool, das heute Millionen Nutzer:innen einsetzen. Wir schauen uns an, wie sich das Produkt von ersten Klassifikatoren hin zu komplexeren AI-Modellen entwickelt hat und warum Auphonic schon lange vor dem aktuellen AI-Boom auf diese Technologien gesetzt hat.
Wir sprechen darüber, wie unterschiedliche Komponenten wie Noise Reduction, De-Essing, Equalizing und Loudness-Normalisierung zusammenspielen und warum gerade die Balance zwischen Sprache und Musik eine besondere Herausforderung ist. Dabei wird schnell klar: Viele Probleme lassen sich technisch objektiv lösen, andere bleiben zwangsläufig subjektiv – etwa beim „richtigen“ Klang einer Stimme. Genau hier wird spannend, wie Auphonic versucht, sinnvolle Defaults zu liefern und gleichzeitig genug Flexibilität für unterschiedliche Use Cases zu bieten.
Ein großer Teil der Folge dreht sich um die technische Umsetzung: Statt eines großen „Alleskönner“-Modells setzt Auphonic auf viele spezialisierte Modelle und klassische Signalverarbeitung in Kombination. Wir klären, warum dieser modulare Ansatz im Audio-Bereich sinnvoll ist, welche Rolle unterschiedliche Modellarchitekturen spielen und wie Trainingsdaten überhaupt entstehen – inklusive der Herausforderung, gute Ziel-Daten zu finden und daraus künstlich „schlechte“ Beispiele zu generieren. Außerdem werfen wir einen Blick auf die Infrastruktur dahinter: von GPU-Servern bei Hetzner über eigene Trainingshardware auf einem Bio-Bauernhof bis hin zu Queue-basierten Processing-Pipelines.
Zum Abschluss geht es um Produktentscheidungen und den Markt: Wie entwickelt man ein Pricing für ein AI-Produkt, das mit steigender Modellkomplexität immer teurer werden kann? Warum war es ein Vorteil, früh gestartet zu sein? Und welche Rolle spielt der aktuelle AI-Hype überhaupt in einem Bereich, der schon lange vorher stark von Machine Learning geprägt war? Wir sprechen außerdem darüber, warum vollautomatische, AI-generierte Podcasts bisher keine große Rolle spielen und warum Menschen am Ende vielleicht doch lieber anderen Menschen zuhören.
Schreibt uns!
Schickt uns eure Themenwünsche und euer Feedback: [email protected]
Folgt uns!
Bleibt auf dem Laufenden über zukünftige Folgen und virtuelle Meetups und beteiligt euch an Community-Diskussionen.
Bluesky
Instagram
LinkedIn
Meetup
YouTube
Musik: Hanimo
By programmier.barWie hat dir die Folge gefallen?
Gut 👍
Schlecht 👎
(Keine Anmeldung erforderlich)
Auphonic gehört für viele Podcast-Workflows längst zum Standard, aber wie baut man eigentlich ein Produkt, das Audio automatisch „gut“ klingen lässt? In dieser Deep-Dive-Folge sprechen wir mit Georg Holzmann über die Entstehungsgeschichte hinter Auphonic und warum die Idee ursprünglich aus einem ganz einfachen Problem kam: schlechte Audioqualität bei Podcasts.
Aus einem Mix von Audio-Engineering, Informatik und Machine Learning entsteht ein Tool, das heute Millionen Nutzer:innen einsetzen. Wir schauen uns an, wie sich das Produkt von ersten Klassifikatoren hin zu komplexeren AI-Modellen entwickelt hat und warum Auphonic schon lange vor dem aktuellen AI-Boom auf diese Technologien gesetzt hat.
Wir sprechen darüber, wie unterschiedliche Komponenten wie Noise Reduction, De-Essing, Equalizing und Loudness-Normalisierung zusammenspielen und warum gerade die Balance zwischen Sprache und Musik eine besondere Herausforderung ist. Dabei wird schnell klar: Viele Probleme lassen sich technisch objektiv lösen, andere bleiben zwangsläufig subjektiv – etwa beim „richtigen“ Klang einer Stimme. Genau hier wird spannend, wie Auphonic versucht, sinnvolle Defaults zu liefern und gleichzeitig genug Flexibilität für unterschiedliche Use Cases zu bieten.
Ein großer Teil der Folge dreht sich um die technische Umsetzung: Statt eines großen „Alleskönner“-Modells setzt Auphonic auf viele spezialisierte Modelle und klassische Signalverarbeitung in Kombination. Wir klären, warum dieser modulare Ansatz im Audio-Bereich sinnvoll ist, welche Rolle unterschiedliche Modellarchitekturen spielen und wie Trainingsdaten überhaupt entstehen – inklusive der Herausforderung, gute Ziel-Daten zu finden und daraus künstlich „schlechte“ Beispiele zu generieren. Außerdem werfen wir einen Blick auf die Infrastruktur dahinter: von GPU-Servern bei Hetzner über eigene Trainingshardware auf einem Bio-Bauernhof bis hin zu Queue-basierten Processing-Pipelines.
Zum Abschluss geht es um Produktentscheidungen und den Markt: Wie entwickelt man ein Pricing für ein AI-Produkt, das mit steigender Modellkomplexität immer teurer werden kann? Warum war es ein Vorteil, früh gestartet zu sein? Und welche Rolle spielt der aktuelle AI-Hype überhaupt in einem Bereich, der schon lange vorher stark von Machine Learning geprägt war? Wir sprechen außerdem darüber, warum vollautomatische, AI-generierte Podcasts bisher keine große Rolle spielen und warum Menschen am Ende vielleicht doch lieber anderen Menschen zuhören.
Schreibt uns!
Schickt uns eure Themenwünsche und euer Feedback: [email protected]
Folgt uns!
Bleibt auf dem Laufenden über zukünftige Folgen und virtuelle Meetups und beteiligt euch an Community-Diskussionen.
Bluesky
Instagram
LinkedIn
Meetup
YouTube
Musik: Hanimo

26 Listeners

9 Listeners

7 Listeners

10 Listeners

2 Listeners

5 Listeners

9 Listeners

2 Listeners

0 Listeners

0 Listeners

12 Listeners

19 Listeners

5 Listeners

3 Listeners

0 Listeners