Python Podcast

Data Science


Listen Later

Data Science (click here to comment) 8. Dezember 2025, Jochen

🎙️ Zu Gast: Mira – Data Scientist, Geschäftsführerin einer Berliner Data-Science-Beratung und Host des Podcasts Data Science Deep Dive.

Dominik und Jochen sprechen mit ihr darüber, was Data Science in der Praxis heute bedeutet: weniger Machine-Learning-Magie, mehr solides Datenhandwerk – von der Problemanalyse über Feature Engineering bis hin zu Deployment, Monitoring und Drift. An konkreten Projekten (u. a. einer Luftschadstoff-Prognose für die Berliner Senatsverwaltung) wird klar, wo die echten Herausforderungen liegen – und wo die spannendsten Hebel sind.

In dieser Episode:

  • 📊 Was "Data Science" eigentlich umfasst – Skills, Rollen und warum man dafĂĽr nicht unbedingt Informatik studiert haben muss
  • 🔄 CRISP-DM in der Praxis – vom Use-Case bis Wartung und Drift, und warum die Modellierung oft nur ein kleiner Teil ist
  • 🛠️ Tooling & Architektur – Pandas, Scikit-Learn, Polars, Kubernetes, ClickHouse, REST-API, MLflow und Alerting mit Redash
  • 🌳 XGBoost vs. TabPFN – warum Gradient Boosting immer noch der Klassiker ist und was Transformer-Modelle fĂĽr tabulare Daten können
  • 🔍 Feature Engineering & Interpretierbarkeit – mit SHAP verstehen, was das Modell gelernt hat
  • ⚡ Performance in der Realität – Spark vs. Polars, Sampling, vektorisierte Operationen und warum "verteilen" nicht automatisch schneller heiĂźt
  • đźš— LLMs fĂĽr Vorhersagen – Experimente mit Gebrauchtwagenpreisen und warum Finetuning hier Sinn macht

Unsere Picks:

  • Mira: Pandas UDFs fĂĽr Parallelisierung in Spark – von Stunden auf Minuten 🚀
  • Dominik: just – Hynek erklärt, warum just der bessere Taskrunner ist als make
  • Jochen: ccusage / ccusage for codex – Token-Kosten im Blick behalten bei claude code / codex
Shownotes

Unsere E-Mail fĂĽr Fragen, Anregungen & Kommentare: [email protected]

Data Science
  • Data Science Beratung inwt
  • Cross-industry standard process for data mining CRISP-DM
  • Visualisierungen: ggplot2 / Redash
  • pandas / polars / PySpark
  • mlflow
  • ClickHouse
  • XGBoost / CatBoost / LightGBM / TebPFN / SHAP
  • ibis / arrow
Picks
  • pandas_udf
  • uv: Making Local Python Workflows FAST and BORING in 2025 | Starts at the justfile part..
  • ccusage / ccusage for codex
  • ElevenLabs / NobebookLM | Um sich Podcasts zu generieren..
  • Data Science Deep Dive
...more
View all episodesView all episodes
Download on the App Store

Python PodcastBy Jochen Wersdörfer / Dominik Geldmacher


More shows like Python Podcast

View all
Geschichten aus der Geschichte by Richard Hemmer und Daniel MeĂźner

Geschichten aus der Geschichte

182 Listeners

Lage der Nation - der Politik-Podcast aus Berlin by Philip Banse & Ulf Buermeyer

Lage der Nation - der Politik-Podcast aus Berlin

223 Listeners

Das Wissen | SWR by SWR

Das Wissen | SWR

111 Listeners

heiseshow by heise online

heiseshow

2 Listeners

Fest & Flauschig by Jan Böhmermann & Olli Schulz

Fest & Flauschig

15 Listeners