Data Science Deep Dive

#69: AI Agents verstehen und evaluieren mit Matthäus Deutsch


Listen Later

AI Agents sind mehr als nur Chatbots – aber wie bewertet man sie richtig? Wir sprechen über die Herausforderungen beim Testen von AI im Kundenservice, warum falsche API-Parameter ins Chaos führen und wieso "mysteriöser Fleischeintopf" ein PR-Desaster wurde. Matthäus Deutsch von Parloa berichtet, wie flexible Plattformintegrationen und evaluative Ansätze (z.B. assertion-based Testing und Simulationen) den Einsatz von AI Agents vorantreiben. Außerdem: welche Metriken wirklich zählen, was Multi-Agent-Setups leisten und warum der Preisverfall bei Open-Source-Modellen das Game verändert. 

 

Zusammenfassung

  • AI Agents erweitern klassische Chatbots im Kundenservice, insbesondere im Telefonbereich, durch GenAI-basierte, dynamische Lösungen
  • Parloa demonstriert flexible Plattformintegrationen und den Einsatz von Evaluationsmethoden wie assertion-based Testing und Simulationen
  • Die Evaluation von AI Agents erfordert spezielles Benchmarking auf Plattform- und individueller Ebene
  • Typische Herausforderungen sind Integrationsprobleme, fehlerhafte API-Calls und unzureichendes Instruction Following
  • Tests erfolgen sowohl auf Konversationsebene als auch durch deterministische Ansätze und LLMs als Judge
  • Es müssen komplexe Metriken und Trade-offs beachtet werden, wobei häufig binäre Testansätze aggregiert werden
  • Schnelle Updates auf neue Modellversionen sind möglich, allerdings steigen langfristig die Kosten durch umfangreiche Testzyklen
  • Innovationen wie optimierte Speech-to-Speech-Technologien und Open-Source-Lösungen (z. B. DeepSeek) bieten Potenzial zur Kostenreduktion
  • Der Einsatz von Operatoren-Modellen und Tool-Integrationen ermöglicht auch die Anbindung an Legacy-Systeme, z.B. SAP
  • Ziel ist es, den Automatisierungsanteil im Kundenservice zu erhöhen und eine Balance zwischen bewährter Qualität und neuen Features zu finden
  • Links

    • Matthäus Deutsch auf LinkedIn: https://www.linkedin.com/in/matth%C3%A4us-d-928864ab/
    • Parloa Contact-Center-AI-Plattform https://www.parloa.com/de/
    • Stellenangebote bei Parloa https://www.parloa.com/company/careers/#jobs
    • #55: Alle machen XGBoost, aber was macht eigentlich XGBoost? Mit Matthäus Deutsch https://www.podbean.com/ew/pb-6gvc6-16d5018
    • #64: Predictive LLMs: Übertreffen Open-Source-Modelle jetzt OpenAI und XGBoost bei Preisprognosen? https://www.podbean.com/ew/pb-m5qr2-17c425d
    • heise online: "Aromatisches" Chloramingas, Eintopf aus Menschenfleisch: KI-Rezepte irritieren https://www.heise.de/news/Aromatisches-Chlorgas-Eintopf-aus-Menschenfleisch-KI-irritiert-mit-Rezepten-9242991.html
    • Feedback, Fragen oder Themenwünsche gern an [email protected]
    • ...more
      View all episodesView all episodes
      Download on the App Store

      Data Science Deep DiveBy INWT Statistics GmbH


      More shows like Data Science Deep Dive

      View all
      Das Wissen | SWR by SWR

      Das Wissen | SWR

      118 Listeners

      c’t uplink - der IT-Podcast aus Nerdistan by c’t Magazin

      c’t uplink - der IT-Podcast aus Nerdistan

      5 Listeners

      Lage der Nation - der Politik-Podcast aus Berlin by Philip Banse & Ulf Buermeyer

      Lage der Nation - der Politik-Podcast aus Berlin

      238 Listeners

      Was jetzt? by ZEIT ONLINE

      Was jetzt?

      129 Listeners

      Psychologie to go! by Dipl. Psych. Franca Cerutti

      Psychologie to go!

      56 Listeners

      Handelsblatt Morning Briefing - News aus Wirtschaft, Politik und Finanzen by Teresa Stiens, Christian Rickens und die Handelsblatt Redaktion, Handelsblatt

      Handelsblatt Morning Briefing - News aus Wirtschaft, Politik und Finanzen

      49 Listeners

      Talk ohne Gast by Moritz Neumeier und Till Reiners | Fritz (rbb) & rbb media

      Talk ohne Gast

      17 Listeners

      Kampf der Unternehmen by Wondery

      Kampf der Unternehmen

      17 Listeners

      Finanzfluss Podcast by Finanzfluss

      Finanzfluss Podcast

      29 Listeners

      LANZ & PRECHT by ZDF, Markus Lanz & Richard David Precht

      LANZ & PRECHT

      302 Listeners

      KI-Update – ein heise-Podcast by Isabel Grünewald, heise online

      KI-Update – ein heise-Podcast

      5 Listeners

      KI verstehen by Deutschlandfunk

      KI verstehen

      7 Listeners

      Der KI-Podcast by ARD

      Der KI-Podcast

      12 Listeners

      Passwort - der Podcast von heise security by Dr. Christopher Kunz, Sylvester Tremmel

      Passwort - der Podcast von heise security

      3 Listeners

      Fest & Flauschig by Jan Böhmermann & Olli Schulz

      Fest & Flauschig

      17 Listeners