April 03, 2025

#69: AI Agents verstehen und evaluieren mit Matthäus Deutsch

Listen Later

47 minutes

AI Agents sind mehr als nur Chatbots – aber wie bewertet man sie richtig? Wir sprechen über die Herausforderungen beim Testen von AI im Kundenservice, warum falsche API-Parameter ins Chaos führen und wieso "mysteriöser Fleischeintopf" ein PR-Desaster wurde. Matthäus Deutsch von Parloa berichtet, wie flexible Plattformintegrationen und evaluative Ansätze (z.B. assertion-based Testing und Simulationen) den Einsatz von AI Agents vorantreiben. Außerdem: welche Metriken wirklich zählen, was Multi-Agent-Setups leisten und warum der Preisverfall bei Open-Source-Modellen das Game verändert.

Zusammenfassung

AI Agents erweitern klassische Chatbots im Kundenservice, insbesondere im Telefonbereich, durch GenAI-basierte, dynamische Lösungen

Parloa demonstriert flexible Plattformintegrationen und den Einsatz von Evaluationsmethoden wie assertion-based Testing und Simulationen

Die Evaluation von AI Agents erfordert spezielles Benchmarking auf Plattform- und individueller Ebene

Typische Herausforderungen sind Integrationsprobleme, fehlerhafte API-Calls und unzureichendes Instruction Following

Tests erfolgen sowohl auf Konversationsebene als auch durch deterministische Ansätze und LLMs als Judge

Es müssen komplexe Metriken und Trade-offs beachtet werden, wobei häufig binäre Testansätze aggregiert werden

Schnelle Updates auf neue Modellversionen sind möglich, allerdings steigen langfristig die Kosten durch umfangreiche Testzyklen

Innovationen wie optimierte Speech-to-Speech-Technologien und Open-Source-Lösungen (z. B. DeepSeek) bieten Potenzial zur Kostenreduktion

Der Einsatz von Operatoren-Modellen und Tool-Integrationen ermöglicht auch die Anbindung an Legacy-Systeme, z.B. SAP

Ziel ist es, den Automatisierungsanteil im Kundenservice zu erhöhen und eine Balance zwischen bewährter Qualität und neuen Features zu finden

Links

Matthäus Deutsch auf LinkedIn: https://www.linkedin.com/in/matth%C3%A4us-d-928864ab/

Parloa Contact-Center-AI-Plattform https://www.parloa.com/de/

Stellenangebote bei Parloa https://www.parloa.com/company/careers/#jobs

#55: Alle machen XGBoost, aber was macht eigentlich XGBoost? Mit Matthäus Deutsch https://www.podbean.com/ew/pb-6gvc6-16d5018

#64: Predictive LLMs: Übertreffen Open-Source-Modelle jetzt OpenAI und XGBoost bei Preisprognosen? https://www.podbean.com/ew/pb-m5qr2-17c425d

heise online: "Aromatisches" Chloramingas, Eintopf aus Menschenfleisch: KI-Rezepte irritieren https://www.heise.de/news/Aromatisches-Chlorgas-Eintopf-aus-Menschenfleisch-KI-irritiert-mit-Rezepten-9242991.html

Feedback, Fragen oder Themenwünsche gern an [email protected]

...more

View all episodes

View all episodes

Download on the App Store

Download on the App Store

Get it on Google Play

Data Science Deep Dive

By INWT Statistics GmbH

April 03, 2025

#69: AI Agents verstehen und evaluieren mit Matthäus Deutsch

Listen Later

47 minutes

AI Agents sind mehr als nur Chatbots – aber wie bewertet man sie richtig? Wir sprechen über die Herausforderungen beim Testen von AI im Kundenservice, warum falsche API-Parameter ins Chaos führen und wieso "mysteriöser Fleischeintopf" ein PR-Desaster wurde. Matthäus Deutsch von Parloa berichtet, wie flexible Plattformintegrationen und evaluative Ansätze (z.B. assertion-based Testing und Simulationen) den Einsatz von AI Agents vorantreiben. Außerdem: welche Metriken wirklich zählen, was Multi-Agent-Setups leisten und warum der Preisverfall bei Open-Source-Modellen das Game verändert.

Zusammenfassung

AI Agents erweitern klassische Chatbots im Kundenservice, insbesondere im Telefonbereich, durch GenAI-basierte, dynamische Lösungen

Parloa demonstriert flexible Plattformintegrationen und den Einsatz von Evaluationsmethoden wie assertion-based Testing und Simulationen

Die Evaluation von AI Agents erfordert spezielles Benchmarking auf Plattform- und individueller Ebene

Typische Herausforderungen sind Integrationsprobleme, fehlerhafte API-Calls und unzureichendes Instruction Following

Tests erfolgen sowohl auf Konversationsebene als auch durch deterministische Ansätze und LLMs als Judge

Es müssen komplexe Metriken und Trade-offs beachtet werden, wobei häufig binäre Testansätze aggregiert werden

Schnelle Updates auf neue Modellversionen sind möglich, allerdings steigen langfristig die Kosten durch umfangreiche Testzyklen

Innovationen wie optimierte Speech-to-Speech-Technologien und Open-Source-Lösungen (z. B. DeepSeek) bieten Potenzial zur Kostenreduktion

Der Einsatz von Operatoren-Modellen und Tool-Integrationen ermöglicht auch die Anbindung an Legacy-Systeme, z.B. SAP

Ziel ist es, den Automatisierungsanteil im Kundenservice zu erhöhen und eine Balance zwischen bewährter Qualität und neuen Features zu finden

Links

Matthäus Deutsch auf LinkedIn: https://www.linkedin.com/in/matth%C3%A4us-d-928864ab/

Parloa Contact-Center-AI-Plattform https://www.parloa.com/de/

Stellenangebote bei Parloa https://www.parloa.com/company/careers/#jobs

#55: Alle machen XGBoost, aber was macht eigentlich XGBoost? Mit Matthäus Deutsch https://www.podbean.com/ew/pb-6gvc6-16d5018

#64: Predictive LLMs: Übertreffen Open-Source-Modelle jetzt OpenAI und XGBoost bei Preisprognosen? https://www.podbean.com/ew/pb-m5qr2-17c425d

heise online: "Aromatisches" Chloramingas, Eintopf aus Menschenfleisch: KI-Rezepte irritieren https://www.heise.de/news/Aromatisches-Chlorgas-Eintopf-aus-Menschenfleisch-KI-irritiert-mit-Rezepten-9242991.html

Feedback, Fragen oder Themenwünsche gern an [email protected]

...more

More shows like Data Science Deep Dive

tagesschau: Die 20 Uhr Nachrichten (Audio) by tagesschau

tagesschau: Die 20 Uhr Nachrichten (Audio)

118 Listeners

Geschichten aus der Geschichte by Richard Hemmer und Daniel Meßner

Geschichten aus der Geschichte

202 Listeners

Lage der Nation - der Politik-Podcast aus Berlin by Philip Banse & Ulf Buermeyer

Lage der Nation - der Politik-Podcast aus Berlin

215 Listeners

Forschung aktuell by Deutschlandfunk

Forschung aktuell

21 Listeners

Handelsblatt Morning Briefing - News aus Wirtschaft, Politik und Finanzen by Teresa Stiens, Christian Rickens und die Handelsblatt Redaktion, Handelsblatt

Handelsblatt Morning Briefing - News aus Wirtschaft, Politik und Finanzen

47 Listeners

Verbrechen by DIE ZEIT

Verbrechen

278 Listeners

Handelsblatt Disrupt - Der Podcast über die Zukunft der Wirtschaft by Larissa Holzki, Handelsblatt

Handelsblatt Disrupt - Der Podcast über die Zukunft der Wirtschaft

14 Listeners

Die Lage by DER SPIEGEL

Die Lage

51 Listeners

Baywatch Berlin by Klaas Heufer-Umlauf, Thomas Schmitt, Jakob Lundt & Studio Bummens

Baywatch Berlin

78 Listeners

Doppelgänger by Philipp Glöckler, Philipp Klöckner

Doppelgänger

13 Listeners

Quarks Science Cops by Quarks

Quarks Science Cops

19 Listeners

bto – der Ökonomie-Podcast von Dr. Daniel Stelter by Dr. Daniel Stelter

bto – der Ökonomie-Podcast von Dr. Daniel Stelter

24 Listeners

Was bisher geschah - Geschichtspodcast by Joachim Telgenbüscher, Nils Minkmar

Was bisher geschah - Geschichtspodcast

44 Listeners

Der KI-Podcast by ARD

Der KI-Podcast

17 Listeners

KI-Update – ein heise-Podcast by Isabel Grünewald, heise online

KI-Update – ein heise-Podcast

4 Listeners