Data Science Deep Dive

By INWT Statistics GmbH

Wir machen Data Science. Und in unserem Podcast Data Science Deep Dive reden wir darüber.

Du bist ebenfalls Data Scientist oder interessierst dich für Daten, ML und AI? Dann ist dieser Podcast für di... more

· Technology

Download on the App Store

Download on the App Store

Get it on Google Play

FAQs about Data Science Deep Dive:

How many episodes does Data Science Deep Dive have?

The podcast currently has 89 episodes available.

Data Science Deep Dive episodes:

February 12, 2026#87: [PAIQ3] Predictive AI Quarterly
Im aktuellen Predictive AI Quarterly sprechen wir über zentrale Entwicklungen im Bereich Predictive AI und teilen Erfahrungen aus einem konkreten LLM-Projekt. Thema sind unter anderem TabPFN 2.5, neue Ansätze für Explainability sowie der wachsende Einfluss von AI-Agents auf Softwareentwicklung. Im Praxisteil berichten wir über ein mehrsprachiges Textanalyse-Projekt für den gemeinnützigen Verein Monda Futura. Dabei geht es um die strukturierte Auswertung von rund 850 Zukunftsvisionen mithilfe von LLMs. Abschließend diskutieren wir Learnings zu Modellwahl, Kosten und dem sinnvollen Zusammenspiel von Mensch und KI.

**Zusammenfassung**
TabPFN 2.5: Skalierung, Distillation für produktive Nutzung und höhere Inferenzgeschwindigkeit
ExplainerPFN als Alternative zu SHAP für Feature Importance ohne Zugriff auf das Originalmodell
Trend zu AI-Agents, die große Teile der Softwareentwicklung übernehmen
Use Case Monda Futura: Analyse von 850 mehrsprachigen Zukunftsvisionen (DE/FR/IT)
Pipeline: Fragmentierung, Themenextraktion, Klassifikation und Szenarienerstellung
Effektiver Einsatz von GPT-5-Mini vs. GPT-5.2-Pro je nach Aufgabentyp
Zentrales Learning: Beste Ergebnisse durch Human-in-the-Loop statt Vollautomatisierung

**Links**
Prior Labs TabPFN-2.5 Model Report https://priorlabs.ai/technical-reports/tabpfn-2-5-model-report
ExplainerPFN Forschungs-Paper (zero-shot Feature Importance) https://arxiv.org/abs/2601.23068
OpenCode – Open Source AI Coding Agent https://opencode.ai/
Monda Futura https://mondafutura.org/
OpenAI API & GPT-Modelle Überblick https://platform.openai.com/docs/models
OpenAI Structured Output Guide https://platform.openai.com/docs/guides/structured-outputs
📬 Fragen, Feedback oder Themenwünsche?
Schreibt uns gern an: [email protected]
...more
33min
January 29, 2026#86: "Garbage In, Garbage Out" verhindern: Datenvalidierung richtig gemacht
In dieser Episode dreht sich alles um Datenvalidierung und darum, wie sich das Prinzip "Garbage In, Garbage Out" vermeiden lässt. Mira und Michelle erklären, warum eine gründliche Prüfung der Datenqualität direkt zu Projektbeginn entscheidend ist. Im Fokus stehen typische Checks wie Schema-Validierung, Vollständigkeit, Konsistenz und statistische Auffälligkeiten. Außerdem geht es darum, wie Datenvalidierung hilft, Daten besser zu verstehen und Fehler frühzeitig aufzudecken. Abschließend werden praktische Techniken und Tools vorgestellt, die von manueller Analyse bis zur automatisierten Pipeline reichen.

**Zusammenfassung**
Datenvalidierung prüft die Datenqualität vor der Modellierung
Ziel: Probleme früh erkennen und Ressourcen sparen
Wichtige Aspekte: Datentypen, Duplikate, fehlende Werte
Logik- und Plausibilitätschecks (z.B. Alter nicht negativ, Prozentwerte im richtigen Bereich)
Statistische Methoden zur Erkennung von Anomalien und Verteilungen
Univariat: einfache Kennzahlen, Histogramme, Boxplots, Zeitreihenanalysen
Multivariat: Korrelationen, Scatterplots, Kreuztabellen, Multikollinearität
Tools reichen von Notebooks und Reports bis zu Dashboards und automatisierten Pipelines

**Links**
Great Expectations (Datenvalidierung in Python): https://greatexpectations.io/
Pandera (Schema-Validierung für Pandas): https://pandera.readthedocs.io/
dataMaid (Datenvalidierung in R): https://cran.r-project.org/web/packages/dataMaid/index.html
Pydantic (Datenvalidierung & Settings in Python): https://docs.pydantic.dev/
Wikipedia-Eintrag zum Prinzip "Garbage In, Garbage Out": https://de.wikipedia.org/wiki/Garbage_In,_Garbage_Out
...more
40min
January 15, 2026#85: Technologieauswahl im Dschungel der Möglichkeiten
Die Tech-Welt bietet heute mehr Auswahl denn je und damit auch viel mehr Möglichkeiten, genau die passende Lösung für den eigenen Kontext zu finden. Wir sprechen darüber, warum Entscheidungen nicht mehr über ein einzelnes Kriterium laufen, sondern vor allem vom Systemumfeld, Teamwissen und organisatorischen Rahmenbedingungen abhängen. Anhand praxisnaher Beispiele zeigen wir, wie man trotz Compliance, Cloud-Ökosystemen oder "Tool-Hype" zu soliden, nachhaltigen Entscheidungen kommt. Außerdem ordnen wir typische Kriterien ein und erklären, wie man mit kleinen Tests, klaren Prioritäten und Lernschleifen die Risiken reduziert. Das Fazit: Die Vielfalt ist ein Vorteil, aber nur wenn man strukturiert auswählt, ausprobiert und den Stack sehr bewusst weiterentwickelt.

**Zusammenfassung**
Früher waren Technologieentscheidungen oft simpel, weil es nur wenige Alternativen gab
Heute ist die Landschaft extrem breit, selbst innerhalb von Open Source
Stärken findet man schnell, Schwächen und Grenzen zeigen sich oft erst im Betrieb
Fehlentscheidungen wirken lange nach und können Teams über Jahre ausbremsen
Herstellerempfehlungen sind erwartbar parteiisch, Beratung bringt oft Erfahrungs-Bias mit
Der Kontext (System, Organisation, Restriktionen) ist entscheidender als eine "Feature-Liste"
Beispiele zeigen typische Fallen: Overengineering, Compliance-Zwänge, Cloud-Lock-in, "Tech ausprobieren"
Kriterien wie Kosten, Verfügbarkeit, Sicherheit, Support, Latenz und digitale Souveränität konkurrieren je nach Projekt unterschiedlich stark
Unerwartete Probleme entstehen oft außerhalb der Specs (Bugs, Release-Qualität, Support-Realität)
Ein Tech-Radar und iterative Weiterentwicklung des Stacks helfen, Entscheidungen robuster zu machen
**Links**
Thoughtworks Technology Radar (Adopt / Trial / Assess / Hold) https://www.thoughtworks.com/radar
Positionspapier: "Kriterien zur Identifikation und Auswahl von digitalen Schlüsseltechnologien" von bitkom https://www.bitkom.org/Bitkom/Publikationen/Kriterien-zur-Identifikation-und-Auswahl-von-digitalen-Schluesseltechnologien
Episode #29: Die Qual der Wahl: Data Science Plattform vs. Customized Stack https://www.podbean.com/ew/pb-pep8h-147029f
📬 Fragen, Feedback oder Themenwünsche?
Schreibt uns gern an: [email protected]
...more
47min
December 18, 2025 Kurze Pause, frische Energie: Wir hören uns im neuen Jahr!
Wir möchten uns kurz mit einem Update in eigener Sache bei euch melden.
Normalerweise erscheinen unsere Episoden alle zwei Wochen, aktuell sind wir jedoch stark in laufende Projekte eingebunden. Damit wir euch weiterhin qualitativ hochwertige und praxisnahe Inhalte rund um Data Science liefern können, legen wir im Dezember und über den Jahreswechsel eine kurze Podcast-Pause ein.
Gleichzeitig möchten wir die Gelegenheit nutzen, Danke zu sagen:
Danke fürs Zuhören, fürs Weiterempfehlen und für euer Interesse an unseren Themen. ❤️
Ab Mitte Januar sind wir wieder zurück mit neuen Episoden, frischen Perspektiven und wie gewohnt spannenden Themen aus der Welt der Data Science.
Bis dahin wünschen wir euch entspannte Feiertage, eine gute Zeit zwischen den Jahren und einen großartigen Start ins neue Jahr. Bleibt gesund oder werdet gesund, bis bald!
...more
2min
November 13, 2025#84: Body Leasing: Zwischen Beratung, Teamkultur und Erwartungsmanagement
In dieser Episode sprechen wir darüber, wie es ist, im Body Leasing als externer Data Scientist direkt im Kund*innenteam zu arbeiten. Mira und Andreas teilen ihre Erfahrungen zu Rollenwechseln, Erwartungen im Projekt und dem Umgang mit Druck und neuen Teamkulturen. Wir geben praktische Tipps für Onboarding, Kommunikation und Beziehungspflege, damit die Zusammenarbeit für alle Seiten gut funktioniert. Außerdem beleuchten wir die Chancen und Risiken für Beratungen, Freelancer*innen und Auftraggeber*innen. Am Ende zeigt sich: erfolgreich wird Body Leasing vor allem über gute Beziehungen und gute Selbstorganisation.

**Zusammenfassung**
Was Body Leasing bedeutet und warum es eine besondere Form der Beratung ist
Erfahrungen von Mira und Andreas: Rollen, Herausforderungen und Chancen im Kund*innenteam
Tipps für den Einstieg: Onboarding ernst nehmen, Erwartungen klären, Ergebnisse gut präsentieren
Bedeutung von Beziehungsebene, Teamkultur und Kommunikation im täglichen Miteinander
Umgang mit Druck, Bewertung und wechselnden Anforderungen
Vorteile für Berater*innen: neuer Input, externe Validierung, Einblick in andere Unternehmen
Chancen und Risiken für Beratungsunternehmen und Freelancer*innen
Sicht der Auftraggeber*innen: schnelle Verfügbarkeit, Know-how-Gewinn, aber auch On-/Offboarding-Aufwand
...more
31min
October 23, 2025#83: Wie gut ist gut genug? Modellgütemaße richtig verstehen
In dieser Folge sprechen Mira und Amit über Modellgütemaße für kontinuierliche Zielvariablen – also darüber, wie man die Qualität von Vorhersagen richtig bewertet. Von MAE und RMSE bis hin zu R² und AIC/BIC: Wir erklären, was die einzelnen Kennzahlen aussagen, wo ihre Grenzen liegen und welche typischen Fallen es gibt. Außerdem geht's um Bias, Robustheit und warum der Kontext entscheidend ist. Und natürlich um die Frage: Welches Gütemaß passt eigentlich zu meinem Modell?

**Zusammenfassung**
Überblick über Gütemaße für kontinuierliche Zielgrößen
Bias, MAE, MAPE, sMAPE, MSE, RMSE, R², AIC/BIC im Vergleich
Vor- und Nachteile der einzelnen Metriken
Typische Fallstricke: Ausreißer, kleine Werte, verzerrte Interpretation
Tipps zur Auswahl des passenden Gütemaßes für den Use Case
Bedeutung von Repräsentativität, Validierung und Gewichtung
Fazit: Kombination mehrerer Gütemaße ist meist die beste Wahl

**Links**
Blogserie zum Bestimmtheitsmaß (R²): https://www.inwt-statistics.de/blog/bestimmtheitsmass_r2-teil1
#26: A/B-Testing: Erkenntnisse statt Bauchgefühl https://www.podbean.com/ew/pb-6fzpj-143cfb1
#43: Damit es im Live-Betrieb nicht kracht: Vermeidung von Overfitting & Data Leakage https://www.podbean.com/ew/pb-vw736-15baac0
...more
34min
October 09, 2025#82: Monitoring in MLOps: Tools, Tipps und Best Practices aus der Praxis
Wie behält man eigentlich den Überblick, wenn Data Science Services in Produktion laufen? In dieser Folge sprechen Sebastian und Michelle darüber, wie man einen sinnvollen Monitoring-Stack aufsetzt – von Logs und Metriken bis hin zu Alerts und Dashboards. Wir schauen uns Tools wie Prometheus, Grafana, Loki und ELK an und klären, worin sie sich unterscheiden. Außerdem geht's um Best Practices fürs Alerting, sinnvolle Feedbackschleifen und die Frage, wann und wie man Monitoring in den Entwicklungsprozess integriert.

**Zusammenfassung**
Ziel von Monitoring: schnelle Feedbackschleifen zwischen Entwicklung und Produktion
Unterschied zwischen CI/CD und Monitoring, letztere liefert Feedback nach dem Deployment
Planung des Monitorings idealerweise schon bei der Architektur berücksichtigen
Überblick über Monitoring-Ziele: Services, Infrastruktur, Daten, Modelle
Vergleich Cloud vs. Self-Hosted Monitoring (Aufwand, Flexibilität, Kosten)
Wichtige Tools: Prometheus/Grafana/Loki, ELK-Stack, Nagios/Icinga/Zabbix, Great Expectations, Redash/Metabase
Best Practices fürs Alerting: sinnvolle Schwellenwerte, Vermeidung von "Alert Fatigue", klare Zuständigkeiten
Fazit: Monitoring braucht klare Ziele, sinnvolle Alerts und gute Visualisierung, um echten Mehrwert zu liefern

**Links**
#23: Unsexy aber wichtig: Tests und Monitoring https://www.podbean.com/ew/pb-vxp58-13f311a
Prometheus – Open-Source Monitoring-System: https://prometheus.io
Grafana – Visualisierung von Metriken und Logs: https://grafana.com
Loki – Log-Aggregation für Grafana: https://grafana.com/oss/loki/
ELK Stack (Elasticsearch, Logstash, Kibana): https://www.elastic.co/elastic-stack
Great Expectations – Datenvalidierung und Monitoring: https://greatexpectations.io
Redash – SQL-basierte Dashboards und Visualisierungen: https://redash.io
Metabase – Self-Service BI-Tool: https://www.metabase.com
Nagios – klassisches System-Monitoring-Tool: https://www.nagios.org
Icinga – moderner Nagios-Fork: https://icinga.com
Zabbix – Monitoring-Plattform für Netzwerke & Server: https://www.zabbix.com
Prometheus Alertmanager: https://prometheus.io/docs/alerting/latest/alertmanager/
PagerDuty – Incident Response Management: https://www.pagerduty.com

📬 Fragen, Feedback oder Themenwünsche?
Schreibt uns gern an: [email protected]
...more
45min
September 25, 2025#81: [PAIQ2] Predictive AI Quarterly
In dieser Folge des Predictive AI Quarterly sprechen wir über die Veröffentlichung von GPT-5 und was sich im Vergleich zu GPT-4 geändert hat. Wir schauen uns an, wie Reasoning jetzt funktioniert und welche Optionen Entwickler*innen bei der Nutzung haben. Außerdem geht's um neue Open-Source-Modelle von OpenAI, die Einführung von TabArena als dynamischem Benchmark für Tabulardaten und spannende Integrationen wie TabPFN in Sourcetable. Im Praxisteil nehmen wir QLoRA unter die Lupe und testen, ob Finetuning mit Quantisierung wirklich so effizient und verlustfrei ist, wie versprochen.

** Zusammenfassung **
GPT-5 Release: Neues Reasoning-Feature, flexible Steuerung über Parameter und Empfehlungen für die Migration von GPT-4.
Open-Source-Modelle von OpenAI: Veröffentlichung von 20B- und 120B-Modellen mit vergleichsweise moderatem Hardwarebedarf.
TabArena: Dynamischer Benchmark für tabellarische Daten, der Ensembling und TabPFN bei kleinen Datensätzen hervorhebt.
TabPFN in Sourcetable: Integration von Predictive AI direkt in Spreadsheets für nahtlose Nutzung.
Praxis-Test QLoRA: Finetuning mit Quantisierung liefert gleiche Qualität wie LoRA, benötigt aber nur halb so viel Speicher.

** Links **
OpenAI – GPT-5 für Entwickler*innen vorgestellt: https://openai.com/de-DE/index/introducing-gpt-5-for-developers/
OpenAI – API Responses Referenz: https://platform.openai.com/docs/api-reference/responses/create
OpenAI – Guide: Reasoning in GPT: https://platform.openai.com/docs/guides/reasoning
OpenAI – Modell-Migrationsempfehlungen: https://platform.openai.com/docs/guides/latest-model#migration-guidance
Hugging Face – Open-Source GPT 20B: https://huggingface.co/openai/gpt-oss-20b
Hugging Face – Open-Source GPT 120B: https://huggingface.co/openai/gpt-oss-120b
OpenAI – Ankündigung OSS-Modelle: https://openai.com/de-DE/index/introducing-gpt-oss/
Hugging Face – TabArena Leaderboard: https://huggingface.co/spaces/TabArena/leaderboard
arXiv – TabArena Paper: https://arxiv.org/abs/2506.16791
Sourcetable – Homepage / Tool: https://sourcetable.com/
Heise c’t – Artikel "Komprimierte KI" (Februar 2025): https://www.heise.de/select/ct/2025/2/2432617330867723674
Heise c’t – Artikel "Quantisierung": https://www.heise.de/select/ct/2025/7/2504911435670065158
arXiv – QLoRA Paper (Mai 2023): https://arxiv.org/abs/2305.14314
NeurIPS – QLoRA Veröffentlichung: https://proceedings.neurips.cc/paper_files/paper/2023/hash/1feb87871436031bdc0f2beaa62a049b-Abstract-Conference.html
arXiv – Paper zu Quantisierung: https://arxiv.org/abs/2501.13787
📬 Fragen, Feedback oder Themenwünsche?
Schreibt uns gern an: [email protected]
...more
27min
September 04, 2025#80: Willkommen an Bord: Wie wir neue Kolleg*innen begleiten
Onboarding ist mehr als nur Laptop einrichten und Accounts anlegen, es ist der Startpunkt für alles, was danach kommt. In dieser Folge sprechen wir über die ersten Tage und Wochen, wie man neuen Kolleg*innen Orientierung gibt und warum Mentoring so wichtig ist. Wir diskutieren auch den Übergang von den Basics hin zu Projekten und wie man Schritt für Schritt Verantwortung übernimmt. Außerdem werfen wir einen Blick darauf, was langfristig zählt: Wissen teilen, Feedback geben und Raum für Entwicklung schaffen.

**Zusammenfassung**
Technische Basics: Accounts, Laptop, Tools, Datenschutz etc.
Mentoring als Anlaufstelle für Fragen und Kulturvermittlung
Feedback- und Mitarbeitergespräche, am Anfang ganz besonders entscheidend
Unterschiedliche Profile: Coding, Statistik, echte Daten – wie man Skills ausgleicht
Einarbeitung in Projekte: zuerst im Hintergrund, dann mit wachsender Verantwortung
Unterschied remote vs. vor Ort: passende Unterstützung finden
Langfristig wichtig: Wissenstransfer, Weiterbildung und Raum für Eigeninitiative

**Links**
#60: Job-Sicherheit als Data Scientist: Personalentwicklung in Zeiten von AI https://www.podbean.com/ew/pb-x68nz-1748acb
#51: Wer rastet, rostet: Die Rolle von Weiterbildung in Data Science https://www.podbean.com/ew/pb-czpd3-16716c0

📬 Fragen, Feedback oder Themenwünsche?
Schreibt uns gern an: [email protected]
...more
37min
August 21, 2025#79: Data Science on the Edge: Modelle in verteilten Umgebungen
Modelle auf Edge-Devices zu bringen ist kein Standard-Deployment – das zeigt sich im gesamten Life-Cycle: von der Datenpipeline über das Feature-Engineering bis zur Modellüberwachung. In dieser Folge diskutieren wir, wie sich gängige MLOps-Ansätze verändern, wenn Netzwerk, Datenschutz oder Ressourcen limitiert sind. Wir sprechen über typische Architektur-Entscheidungen, sinnvolle Deployment-Strategien und warum Murphys Law auf Edge-Setups besonders gut zutrifft. Am Ende bleibt die Erkenntnis: ohne triftigen Grund bleibt man besser in der Cloud.

**Zusammenfassung**
Edge Computing verändert die Art und Weise, wie Modelle in der Data Science implementiert werden
Offline-Serving ist der einfachste Fall, während Online-Serving komplexere Anforderungen hat
Latenz ist ein kritischer Faktor bei der Nutzung von Edge-Devices
Datenbeschaffung kann über Push- oder Pull-Ansätze erfolgen
Feature Engineering muss an die Einschränkungen von Edge-Devices angepasst werden
Modelltraining kann sowohl zentral als auch lokal auf Edge-Devices erfolgen
CI/CD-Prozesse müssen an die spezifischen Anforderungen von Edge-Devices angepasst werden
Monitoring ist entscheidend, um die Leistung von Modellen auf Edge-Devices zu bewerten
Die Qualität der Daten und der Sensoren hat einen direkten Einfluss auf die Modellleistung
Ein erfolgreicher Einsatz von Edge Computing erfordert enge Zusammenarbeit zwischen Data Science und Engineering-Teams

**Links**
#54: Modell-Deployment: Wie bringe ich mein Modell in die Produktion? https://www.podbean.com/ew/pb-hhhwu-16b91f3

📬 Fragen, Feedback oder Themenwünsche?
Schreibt uns gern an: [email protected]
...more
57min

FAQs about Data Science Deep Dive:

How many episodes does Data Science Deep Dive have?

The podcast currently has 89 episodes available.

More shows like Data Science Deep Dive

tagesschau: Die 20 Uhr Nachrichten (Audio) by tagesschau

tagesschau: Die 20 Uhr Nachrichten (Audio)

122 Listeners

Geschichten aus der Geschichte by Richard Hemmer und Daniel Meßner

Geschichten aus der Geschichte

186 Listeners

Lage der Nation - der Politik-Podcast aus Berlin by Philip Banse & Ulf Buermeyer

Lage der Nation - der Politik-Podcast aus Berlin

224 Listeners

Forschung aktuell by Deutschlandfunk

Forschung aktuell

19 Listeners

Handelsblatt Morning Briefing - News aus Wirtschaft, Politik und Finanzen by Teresa Stiens, Christian Rickens und die Handelsblatt Redaktion, Handelsblatt

Handelsblatt Morning Briefing - News aus Wirtschaft, Politik und Finanzen

47 Listeners

Verbrechen by DIE ZEIT

Verbrechen

286 Listeners

Handelsblatt Disrupt - Der Podcast über die Zukunft der Wirtschaft by Larissa Holzki, Handelsblatt

Handelsblatt Disrupt - Der Podcast über die Zukunft der Wirtschaft

13 Listeners

Die Lage by DER SPIEGEL

Die Lage

52 Listeners

Baywatch Berlin by Klaas Heufer-Umlauf, Thomas Schmitt, Jakob Lundt & Studio Bummens

Baywatch Berlin

81 Listeners

Doppelgänger by Philipp Glöckler, Philipp Klöckner

Doppelgänger

14 Listeners

Quarks Science Cops by Quarks

Quarks Science Cops

15 Listeners

bto – der Ökonomie-Podcast von Dr. Daniel Stelter by Dr. Daniel Stelter

bto – der Ökonomie-Podcast von Dr. Daniel Stelter

24 Listeners

Was bisher geschah - Geschichtspodcast by Joachim Telgenbüscher, Nils Minkmar

Was bisher geschah - Geschichtspodcast

44 Listeners

Der KI-Podcast by ARD

Der KI-Podcast

18 Listeners

KI-Update – ein heise-Podcast by Isabel Grünewald, heise online

KI-Update – ein heise-Podcast

4 Listeners