June 04, 2022

dl026: datathon – women in data science

55 minutes

Intro (00:00:00)

Thema des Podcasts (00:00:18)

Willkommen zur 26. Folge beim datenleben-Podcast, dem Podcast über Data Science. Wir sind Helena und Janine und möchten euch die Welt der Daten näher bringen. Was für Daten gibt es? Was können wir aus ihnen lernen? Und wie können wir sie überhaupt benutzen? Wer schon immer mehr darüber wissen wollte, ist hier richtig, denn diesen Fragen gehen wir nach.

Thema der Folge (00:00:39)

Wir haben zusammen mit zwei anderen Menschen an einem datathon teilgenommen und möchten heute darüber erzählen

Und zwar handelte es sich um den Women in Data Science Datathon der Stanfort University

Weltweit haben mehrere Hundert Teams teilgenommen und wir wollten auch mitmischen

Was wir dabei und wie wir das erlebt haben, wie wir uns organisiert haben und was die interessanten Probleme waren, die sich uns dabei gestellt haben

Ausserdem welche Lösungen wir -- und auch andere -- entwickelt haben

Dazu haben wir natürlich die anderen beiden auch eingeladen, die sich gleich noch kurz vorstellen, nachdem Helena uns jetzt erstmal erzählt, warum wir das Thema interessant genug für eine Folge finden

Also es geht gleich darum, wie der Datathon strukturiert war, wie wir uns organisiert und wie wir gearbeitet haben und was allgemein so unsere Erfahrung damit war

Warum ist das Thema interessant? (00:01:35)

Seit Lisa in Folge dl018: 3d-modelle aus fotos vom Coding da Vinci Datathon erzählt hat, wollten wir auch mal an einem Datathon teilnehmen

Weil datathons bieten praxisnahe Themen und im Team arbeiten, analysieren und lernen macht Spaß

Die Teams durften aus bis zu 4 Leuten bestehen und deswegen haben wir uns Verstärkung geholt

Zum einen Piko, Piko war schon in der Folge dl021: python lernen! dabei

Zum anderen Keks, die heute zum ersten Mal bei uns im Podcast ist

Wer sind Piko und Keks? (00:02:53)

Piko wohnt in Hamburg, eigentliche Ausbildung Musik und Stimme

ist über Hacking und Aktivismus in die Informatik gekommen

gibt Python-Kurse und promoviert zur Anwendung von Maschinelearning im Musiktheater

Nebenher ganz viel Feminismus; bei den Haecksen aktiv

Keks schreibt gerade eine Masterarbeit in Astrophysik, muss dafür auch Dinge programmieren

Am Datathon auch teilgenommen, um eingerostete Pythonkenntnisse für die Masterarbeit aufzufrischen wollen

Ansonsten vor allem mit politischer Bildungsarbeit beschäftigt

Einspieler: Was ist ein Datathon? (00:04:02)

Ein Datathon ist im Wesentlichen das gleiche wie ein Hackathon

Und ein Hackathon wiederum ist eine Veranstaltung, bei der innerhalb eines bestimmtes Zeitraumes Projekte entwickelt oder weiterentwickelt werden.

Es setzt sich zusammen aus Hacken und Marathon.

Ziel ist es in der vorgegebenen Zeit mit technischen und kreativen Ansätzen Lösungen für die gestellte Aufgabe oder das vorliegende Problem zu finden.

Beziehungsweise verbergen sich hinter einem Hackathon oft weitere Ziele, die über die Aufgabenstellung hinaus gehen

Manche Firmen und Unternehmen nutzen diese als eine Form der Produktentwicklung

Oft können auch Start-Ups aus Hackathons entstehen

Andere richten sich eben an bestimmte Zielgruppen, zum Beispiel auch an Jugendliche, um die Auseinandersetzung mit Technologie zu fördern und einiges mehr

Beim Datathon geht es wiederum ganz konkret um den Umgang mit Daten.

So auch beim Datathon der Stanfort University, der zusammen mit der Konferenz Women in Data Science stattfindet.

Im Falle des Women in Data Science Datathons ist das Ziel, Frauen zum Einstieg in Data Science zu ermutigen

Entsprechend sieht auch das Angebot aus, sich bei der Konferenz zu beteiligen, an Workshops teilzunehmen und sich mit anderen zu vernetzen.

Bei der diesjährigen Ausgabe war das Thema Umwelt und Klimawandel im Fokus

Es gab einen großen Datensatz mit Gebäuden und deren spezifischen Eigenschaften wie Gebäudenutzung, Gebäudetyp, welcher von x möglichen Standorten als Variable

Zusätzlich waren Angaben zu den klimatischen Bedingungen gegeben, wie Hitzetage, Nebel, Niederschlag und mehr

Es wurden über 25800 Einträge auf der Plattform des Datathons vorgenommen

Von über 4000 Registrierungen haben 1800 Personen Einträge vorgenommen

Und die Teilnehmer*innen kamen aus über 90 Ländern

Wie war dar Datathon organisiert? (00:05:59)

Die Anmeldung erfolgte über die Stanfort University

Zusätzlich mussten wir uns auch auf https://kaggle.com/ anmelden

Kaggle: bietet die Möglichkeit Datathons einzurichten, Teams zu bilden, Daten auszutauschen, sich zu vernetzen

Ist so eine Art Social Media für Data Scientists

Wir haben dort einen Datensatz mit über 70.000 Einträgen bekommen und einen zweiten Datensatz mit über 10.000

Mit dem kleineren Datensatz sollten wir dann Testen den Energieverbrauch vorherzusagen und unser Ergebnis auf der Plattform hochzuladen

Das wurde dann mit den echten Werten abgeglichen und dann tauchen die einreichenden Teams auf dem Scoreboard auf, wo zu sehen ist, wer wie nah herangekommen ist an die echten Werte

Das wurde während des Datathons auf der Hälfte der Daten gerechnet

Aus dem Grund, damit der eigene Algorithmus nicht nur darauf abgestimmt wird, einen besseren Score auf dem Leaderboard zu erhalten

Es gab auf Kaggle auch Beispielauswertungen von den Veranstalter*innen, als erste Anhaltspunkte

Der Datathon ging 2,5 Monate und wurde die ganze Zeit von weiteren Veranstaltungen begleitet

Unter anderem: Vorträge zum Datensatz, wie bestimmte Modelle bearbeitet werden etc.

Weil wir dort ein Team bilden mussten auf Kaggle, haben wir uns auch einen Namen gegeben: Intrusive Unicorn

First things first: Unser Team Name lautet Intrusive Unicorn - Aufdringliches Einhorn

Für das besteste Teamfeeling entstand dafür auch ein Logo, was sehr motivierend war

Wie haben wir uns organisiert und die Daten erschlossen? (00:10:03)

1 wöchentliches Treffen, wo wir zusammen Dinge besprechen, Aufgaben verteilen

Dazwischen gab es Treffen, wo wir zu zweit an den Dingen gearbeitet haben

Es gab 2 Arbeitstreffen um konkret am Code zu frickeln und anzupassen -> Pairprogramming

Pairprogramming: 1 Person ist der "Driver", die Person, die alles ausführt und 1 Person (bei uns mehrere), die die Ansagen macht, was gemacht werden muss

Es bearbeitet immer nur die 1 Person den Code, während die andere eben Vorschläge macht etc.

Vorher mussten wir aber die Daten kennenlernen

Wichtig: Wie kriege ich gute Daten hin? Vor allem wenn viele Informationen fehlen?

Eine Sache war das Energy Star Rating, das nur für 70% der Gebäude vorlag

Also erste Frage: Kann man damit was anfangen?

Zweite Frage: Was kann man damit anfangen?

Es gibt verschiedene Daten: einige sind Zahlen, andere nicht

facility_type: 1 Kategorie mit 60 verschiedenen Möglichkeiten

Wohnhäuser, Geschäftshäuser, etc.

Einzelne davon kommen sehr oft vor, andere sehr selten

Idee: Wir müssen die Kategorien in Zahlen umwandeln

Piko hat dafür das Vorgehen mit One Hot Encoding vorgeschlagen

Was ist One Hot Encoding? (00:13:42)

Nehmen wir 5 Häusertypen: Wohnhaus, Schuppen, Tiefgarage, Mehrfamilienhaus, Büroturm

Problem: weisen wir einfach der Reihe nach die Zahlen 1 bis 5 zu, stolpert die KI darüber

Wenn es unsicher ist, ob es 1 oder 3 ist, würde die KI die Mitte, also 2 ausgeben und damit einfach sagen: Es ist ein Schuppen!

Das funktioniert also nicht

Bei One Hot Encoding werden aus 1 Kategorie mit 5 Variablen erstmal 5 Kategorien gemacht

Und dann wird geguckt zu wie viel Prozent das Ding in welche Kategorie passt

Wenn es zu 0,4% ein Wohnhaus, zu 0,2% ein Schuppen und zu 0,3% ein Hochhaus

So hat man zwar viele Kategorien, weiß aber, welche Ausprägung davon wahrscheinlicher ist/stattfindet

Das ist wichtig, weil ja der Schuppen nicht das Mittelding aus Wohnhaus und Hochhaus ist

Aus der Kategorie mit 60 Ausprägungen haben wir letztendlich 3 Kategorien gemacht, weil wir Subtypen zusammengefasst haben

Was gab es noch für Stolpersteine in den Daten? (00:16:48)

Ein Beispiel ist die Jahr-Kategorie

Die wich manchmal zwischen den beiden Datensätzen voneinander ab, deswegen haben wir sie erstmal ausgelassen

Die Bundesstaaten haben wir nicht mit Namen genannte bekommen, sondern mit Zahlen von 1 bis 6

Die waren in beiden Datensätzen jeweils unterschiedlich häufig vorhanden

In die Daten wurde im Vorfeld viel Arbeit gesteckt, um zum Beispiel die Bundesstaaten zu anonymisieren

Eine Idee die wir zwischendruch hatten: Die Daten deanonymisieren, aber das haben wir schnell verworfen

Wir haben uns sehr intensiv damit befasst, wofür die Spaltennamen stehen und was wir damit tun sollen

Janine und Keks hatten ein Treffen, um sich nur damit zu befassen, was eigentlich hinter den Daten steckt

Teils steckten da komplexe meteorologische Rechnungen und Angeben hinter

Es war auch sehr spannend, erstmal von den Zahlen zurückzutreten und zu überlegen, was das jeweils bedeutet und wie man damit umgehen kann

Fragen: Was hat welchen Einfluss? Ist diese Angabe für uns überhaupt wichtig?

Energy Star Rating spielte vermutlich eine sehr große Rolle, die maximale Windgeschwindigkeit vermutlich eher nicht

Haben uns auch die Frage gestellt, warum diese Analyse und der Versuch so einer Vorhersage überhaupt relevant ist

Was könnte das Ziel dieser Analyse sein? Wie und wofür kann diese angewendet werden?

Zum Beispiel, wie wird sich der Energieverbrauch haben, welche Häuser sollten gebaut werden?

Passt dieser Häusertyp in diese Region mit seinem Energieverbrauch?

Könnte das Modell helfen in die Zukunft zu projizieren, wie sich die Energiebilanz der Häuser ändert, wenn sich das Klima in der jeweiligen Region wie verändert?

Janine fand es sehr hilfreich nicht nur abstrakt mit den Daten umzugehen, sondern einen praktischen Ansatz zu wählen und zu überlegen, was diese Analyse leisten kann

Baujahre der Gebäude: Es gab ein Gebäude das im Jahr 0 gebaut wurde

Das stach sehr heraus und es kann vermutet werden, dass das vielleicht ein Defaultwert ist

Die nächste Jahreszahl war dann etwas mit 1600

Wir brauchten statt der 0 aber einen "richtigen Wert", also haben wir ein Durchschnittsbaujahr berechnet und eingetragen

So etwas haben wir bei einigen anderen Parametern auch gemacht, fehlende Werte wurden häufiger durch Durschnittswerte ersetzt

Oder auch mal mit dem Median, was der mittlere Wert ist zwischen allen Werten, die Existieren und nicht der Durchschnitt als allen vorhandenen Werten

Eine andere Option: Wenn in einem Datensatz zu einem Gebäude zu viele Werte fehlen, kann man den auch mal ganz rauswerfen

Bei Datensätzen zu 70.000 Gebäuden macht es nichts, wenn einige fehlen

Einige Spalten/Kategorien haben wir auch entfernt, weil dort teilweise bis zu 80% der Daten fehlten

Oder eben ob die Angabe für uns überhaupt spannend, hat es einen Effekt auf unser Modell?

Da mussten wir eine Balance für finden

Die Daten waren ja im Vorfeld auch schon gut bearbeitet, das war auch Teil der Herausforderung

Einige Probleme wurden absichtlich im Datensatz belassen, da auch das Bereinigen der Daten Teil der Aufgabe von Data Scientists ist

Für die Bereinigung der Daten haben wir uns viele Histogramme und Boxplots angeguckt, wie oft kommen welche Daten vor etc.

Unsere Einreichung: Neuronales Netz oder doch ein Entscheidungsbaum? (00:29:12)

Danach ist die Frage: Wie kommen wir von den Daten auf die Zahlen, die wir am Ende ausrechnen wollen?

Wir haben mit einem neuronalen Netz angefangen

Das sind sozusagen mathematische Funktionen, die hintereinander geschaltet werden und ihre Ergebnisse aneinander übergeben

Diese einzelnen Fuktionen werden als Neuronen, wie sie in Gehirnen existieren, bezeichnet

So viele Zahlen, wie man in das Netz wirft, so viele Neuronen hat es zu beginn

Am Ende wirft es dann ebenfalls Zahlen raus

Wenn ein Ergebnis rauskommt, dass wir abgleichen können mit realen Daten und sehen, dass das nicht stimmt, können wir das neuronale Netz anpassen, bis es in diesem Punkt stimmt

Problem Overfitting: Wenn das Modell zu gut auf die Trainingsdaten angepasst ist, funktioniert es vielleicht nicht richtig auf den echten Daten dann

Deswegen teilt man die Daten vorher in verschiedene Gruppen auf: Trainingsdaten, Testdaten, Validierungsdaten

Damit das neuronale Netz nicht zu spezifische Regeln "auswendig lernt" und sie auf alles anwendet, auch wenn es nicht mehr passt

Wir haben herausgefunden, dass das Energy Star Rating die Vorhersage durchgehend besser macht, als wenn es ausgelassen würde

Aber weil das teilweise als Angabe fehlte, und wir mit diesem Modell auch recht weit hinten im Scoreboard waren, haben wir weiter überlegt, was es für Optionen gibt

Nur weil neuronale Netze hip und cool sind, müssen sie ja nicht die beste Lösung sein

Helena kam darauf, dass die besseren Vorhersagen von einem Entscheidungsbaum erzeugt wurden

Entscheidungsbäume verwenden wir selbst auch ganz oft, zum Beispiel wenn wir uns beim Aufräumen entscheiden müssen, wohin wir etwas tun

Nimm einen Gegenstand in die Hand: Ist es ein Kleidungsstück? Wenn Ja, tu es in den Kleiderschrank. Wenn nein, ist es ein Buch? Wenn ja, tu es in das Bücherregal, etc.

So können belieb komplizierte Bäume mit Verzweigungen entstehen und jeder Gegenstand wird dabei behandelt

Entscheidungsbäume werden von der Maschine selber gebaut, sieht im Datensatz Dinge und errechnet daraus, welche Regeln am effizientesten sind

Was sollte als erstes gefragt werden, um den größten Teil klar aufzuteilen?

Wir haben die Modelle mit verschiedenen Entscheidungsbäumen gerechnet

Um die Ergebnisse zu optimieren, hat Helena ein paar Werte mit Durchschnitten verschiedener Modelle berechnet

Damit sind wir dann auf Platz 337 von 829 Teams gelandet, also in den Top 50%

Mit den neuronalen Netzen wären wir im letzten Zehntel gelandet

Die ersten 6 Wochen haben wir uns fast nur damit befasst: Was passiert hier eigentlich in den Daten?

Wie sahen andere Lösungen aus? (00:40:44)

Nach dem Datathon haben auch andere Teams ihre Einreichungen veröffentlicht?

Die Bäume kamen auch bei den besten Einreichungen mit vor

Es war offensichtlich, dass sie auch mehr Zeit investiert haben, um mehr Details zu testen

Offenbar hatten die auch eine ganz wesentliche Erkenntnis: Wenn man kein Energy Star Rating hat, wird das Ergebnis immer auf die gleiche Weise unterschätzt

Sie haben das dann immer mit einem konstanten Faktor multipliziert und da verschiedene Faktoren getestet

Helena weiß nicht warum das funktioniert, ist aber sehr fasziniert von dem Ergebnis

Eine konstante Verschätzung heißt, dass Modell hat einen Bias

Eine andere Gruppe hatte Entscheidungsbäume und neuronale Netze und mehr ausprobiert, die haben die Ergebnisse aus allen Modellen genommen und dann gewichtet und daraus Durchschnittswerte gebildet, die das Modell besser gemacht haben

Das hatte Helena innerhalb der Entscheidungsbäume auch so gemacht bei uns, aber eben nicht mit verschiedenen Modellen

Wie war der Datathon für uns? (00:43:47)

Was war schwierig? Was hat uns sehr gefallen?

Für Janine war der schwierige Part das Verständnis für den Datensatz zu entwickeln

Dabei sind auch schön viele Randbereiche aufgetaucht, in die man sich einarbeiten konnte

Es ist sehr cool mit einem Team teilzunehmen, in dem man sich wohl fühlt

Und es ist schön zu merken, dass jede*r sich einbringen konnte mit dem eigenen Wissen

Keks hat es Spaß gemacht im Team, auch kennen zu lernen, wie die anderen arbeiten

Schön war auch, dass alles ohne Druck war und wir einfach nur schauen wollten, wie es ist

Hat ein Gefühl für Data Science und Maschinelearning entwickelt und wird sich vielleicht auch beruflich in diese Richtung orientieren

Fand es spannend zu sehen, mit was für unterschiedlichen Voraussetzungen wir was beitragen konnten

Es macht Sinn, wenn wir was lernen wollen, auch mal was ganz anderes inhaltlich zu machen und dabei etwas zu lernen, was auch angewendet werden kann

Für Piko war ausschlaggebend die gute Atmosphäre im Team, zum Beispiel in den Pairprogramming Sessions

Es gab kein Ungleichgewicht, dass einzelne nur erklärt haben, sondern Austausch und Beitrag von allen

Fand es gut Maschinlearning auch mal praktisch anzuwenden und zu merken, dass die vorher theoretisch gelernten Sachen auch verstanden waren und angewendet werden konnten

Helena fand es auch cool im Team zu arbeiten, allein für die Motivation und die Verbindlichkeit am Ball zu bleiben

Fand es gut Maschinelearning mal wieder aufzufrischen und anwenden zu können, weil es im Berufsalltag eher weniger vorkommt

Inhaltliches Learning: Mit neuronalen Netzen angefangen, aber nur weil es vielseitig und komplex ist, ist es nicht unbedingt das beste, es geht auch mal mit einfacheren Prozessen

Vorbereitung der Daten hat echt viel Zeit in Anspruch genommen

Würden wir das wieder machen? Ja!

Fazit (00:50:26)

Der Women of Data Science Datathon war gut aufgezogen, es gibt Infos, Veranstaltungen und Austausch auch zwischen den Teams via Kaggle

Wir hatten eine feste Arbeitsstruktur mit regelmäßigen treffen, 1x Woche + Treffen zu Themen zu zweit

Von den Skills her divers aufgebaute Teams können gut funktionieren, es sollten aber ein Mensch dabei sein, der*die schon Erfahrungen im Bereich Data Science hat

Es geht super viel Zeit drauf, um die Daten kennenzulernen und zu putzen

Für diesen Datathon hat für unser Team der Entscheidungsbaum besser funktioniert als ein neuronales Netz

Wichtigstes Fazit: Austausch einfach super wichtig

Feststellung: Es ist möglich Vorhersagen über den Energieverbrauch zu treffen

Spannend, weil es zeigt, dass es möglich ist, mit dieser Datenanalyse wirklich praktische Dinge machen zu können

Falls Menschen zuhören, die Interesse daran haben auch mal mitzumachen: der Women in Data Science Datathon findet offenbar jedes Jahr statt

Ansonsten gibt es auch andere Datathons über Kaggle zu finden

Nächste Folge: Wasserspiegel im Juni 2022 (00:53:21)

Es geht um das Klima, wir machen mit der klimadaten-Reihe weiter

Wir hatten in dl007: klimadaten über die Aspekte Waldbrände, Meeresspiegelanstieg und Temperaturkurven geredet und dann zu jedem eine eigene Folge machen wollen

Davon sind bereits erschienen: dl008: temperaturkurven und dl014: waldbrände

Jetzt geht es in Folge 27 weiter mit Meeres- bzw. Wasserspiegel

Dafür gucken wir uns die letzten beiden Veröffentlichung der IPCC Berichte an

Wir gucken uns an wie sich das da mit dem Meeresspiegel und der Klimakrise und grundsätzlich Wasser auf diesem Planeten verhält

Call to Action (00:54:35)

Wenn ihr uns weiter hören möchtet, folgt uns auf Twitter unter @datenleben & Mastodon unter @[email protected]

Oder besucht unsere Webseite: www.datenleben.de

Hinterlasst uns gerne Feedback, wir würden uns darüber sehr freuen

Ihr könnt uns als Data Scientists auch Buchen für Analysen oder Projekte

Ausserdem hat Helena auf einen Vortrag gehalten, der inzwischen auf YouTube veröffentlicht ist:

Guckt gerne auch Helenas Vortrag von der PyConDE & PyData Berlin, die im April stattfand: Rewriting your R analysis code in Python

Habt ihr Fragen oder Themen, die euch interessieren? Dann schreibt uns!

Outro (00:55:41)

Schlagworte zur Folge

Hackathon, Datathon, Maschine Learning, Neuronales Netz, Neuronale Netze, Entscheidungsbaum, Entscheidungsbäume, Teamarbeit, Data Science, Datenanalyse

Links

WiDS Datathon

dl018: 3d-modelle aus fotos

dl021: python lernen!

Wikipedia: Hackathon

https://kaggle.com/

dl008: temperaturkurven

dl014: waldbrände

YouTube, PyData: Helena Schmidt – Rewriting your R analysis code in Python

...more

View all episodes

By datenleben