Data Science Deep Dive

#86: "Garbage In, Garbage Out" verhindern: Datenvalidierung richtig gemacht


Listen Later

In dieser Episode dreht sich alles um Datenvalidierung und darum, wie sich das Prinzip "Garbage In, Garbage Out" vermeiden lässt. Mira und Michelle erklären, warum eine gründliche Prüfung der Datenqualität direkt zu Projektbeginn entscheidend ist. Im Fokus stehen typische Checks wie Schema-Validierung, Vollständigkeit, Konsistenz und statistische Auffälligkeiten. Außerdem geht es darum, wie Datenvalidierung hilft, Daten besser zu verstehen und Fehler frühzeitig aufzudecken. Abschließend werden praktische Techniken und Tools vorgestellt, die von manueller Analyse bis zur automatisierten Pipeline reichen.


**Zusammenfassung**

  • Datenvalidierung prüft die Datenqualität vor der Modellierung
  • Ziel: Probleme früh erkennen und Ressourcen sparen
  • Wichtige Aspekte: Datentypen, Duplikate, fehlende Werte
  • Logik- und Plausibilitätschecks (z.B. Alter nicht negativ, Prozentwerte im richtigen Bereich)
  • Statistische Methoden zur Erkennung von Anomalien und Verteilungen
  • Univariat: einfache Kennzahlen, Histogramme, Boxplots, Zeitreihenanalysen
  • Multivariat: Korrelationen, Scatterplots, Kreuztabellen, Multikollinearität
  • Tools reichen von Notebooks und Reports bis zu Dashboards und automatisierten Pipelines

  • **Links**

    • Great Expectations (Datenvalidierung in Python): https://greatexpectations.io/
    • Pandera (Schema-Validierung für Pandas): https://pandera.readthedocs.io/
    • dataMaid (Datenvalidierung in R): https://cran.r-project.org/web/packages/dataMaid/index.html
    • Pydantic (Datenvalidierung & Settings in Python): https://docs.pydantic.dev/
    • Wikipedia-Eintrag zum Prinzip "Garbage In, Garbage Out": https://de.wikipedia.org/wiki/Garbage_In,_Garbage_Out
    • ...more
      View all episodesView all episodes
      Download on the App Store

      Data Science Deep DiveBy INWT Statistics GmbH


      More shows like Data Science Deep Dive

      View all
      tagesschau: Die 20 Uhr Nachrichten (Audio) by tagesschau

      tagesschau: Die 20 Uhr Nachrichten (Audio)

      120 Listeners

      Geschichten aus der Geschichte by Richard Hemmer und Daniel Meßner

      Geschichten aus der Geschichte

      202 Listeners

      Lage der Nation - der Politik-Podcast aus Berlin by Philip Banse & Ulf Buermeyer

      Lage der Nation - der Politik-Podcast aus Berlin

      224 Listeners

      Forschung aktuell by Deutschlandfunk

      Forschung aktuell

      20 Listeners

      Handelsblatt Morning Briefing - News aus Wirtschaft, Politik und Finanzen by Teresa Stiens, Christian Rickens und die Handelsblatt Redaktion, Handelsblatt

      Handelsblatt Morning Briefing - News aus Wirtschaft, Politik und Finanzen

      49 Listeners

      Verbrechen by DIE ZEIT

      Verbrechen

      281 Listeners

      Handelsblatt Disrupt - Der Podcast über die Zukunft der Wirtschaft by Larissa Holzki, Handelsblatt

      Handelsblatt Disrupt - Der Podcast über die Zukunft der Wirtschaft

      14 Listeners

      Die Lage by DER SPIEGEL

      Die Lage

      52 Listeners

      Baywatch Berlin by Klaas Heufer-Umlauf, Thomas Schmitt, Jakob Lundt & Studio Bummens

      Baywatch Berlin

      78 Listeners

      Doppelgänger by Philipp Glöckler, Philipp Klöckner

      Doppelgänger

      13 Listeners

      Quarks Science Cops by Quarks

      Quarks Science Cops

      21 Listeners

      bto – der Ökonomie-Podcast von Dr. Daniel Stelter by Dr. Daniel Stelter

      bto – der Ökonomie-Podcast von Dr. Daniel Stelter

      24 Listeners

      Was bisher geschah - Geschichtspodcast by Joachim Telgenbüscher, Nils Minkmar

      Was bisher geschah - Geschichtspodcast

      43 Listeners

      Der KI-Podcast by ARD

      Der KI-Podcast

      17 Listeners

      KI-Update – ein heise-Podcast by Isabel Grünewald, heise online

      KI-Update – ein heise-Podcast

      4 Listeners