Shownotes DL001: Data Science
Intro (00:00:00)
Thema des Podcasts und der Folge (00:00:18)
Willkommen zu unserer ersten Folge beim datenleben-Podcast!
Wir sind Helena und Janine und möchten euch mitnehmen in die Welt der Daten.
Was ist Data Science? Was bedeuten die Daten für unser Leben? Woher kommen sie und wozu werden sie benutzt?
Das sind alles Fragen, mit denen wir uns auseinander setzen werden.
Wer schon immer mehr über Daten und deren Effekt auf unser Leben wissen wollte, ist hier genau richtig.
In unserer ersten Folge möchten wir etwas allgemeiner in Data Science einführen.
Wir möchten euch zeigen, warum Data Science ein wichtiges Thema ist, was ein Data Scientist wie Helena zum Beispiel ausmacht und wie die Arbeit eines Data Scientist aussieht, vor allem wie vielfältig sie ist.
Vorstellung (00:01:03)
Wer ist Helena? (00:01:03)
arbeitet freiberuflich als Data Scientisthat Physik studiert und in experimenteller Physik promoviert, sie bereitet sich auf ihre Disputation vor sie ist Teil der Hackercommunity, hat den Braunschweiger Hackerspace Stratum0 mitgegründetWer ist Janine? (00:03:52)
promoviert in Literaturwissenschaft zum Thema Wissenschaft und Technik in der Gegenwartsliteraturwissenschafts- und technikaffin und interessiert sich für Themen rund um Naturwissenschaft, Datenschutz und digitale Gesellschaftnatürlich aber vor allem für Bücher und auch kreative Dinge mit allen möglichen Materialien und TechnikenWarum ist Data Science ein wichtiges Thema? (00:04:42)
Data Science ist jetzt schon wichtig und wird in den kommenden Jahren immer wichtiger werdenImmer mehr Daten werden erfasst und stehen zur Verfügung, um benutzt zu werdenDaten werden uns mittels Statistiken ständig gezeigt, in den Nachrichten, Sozialen Medien und verschiedenen anderen FormatenOft fehlt der Kontext: Woher kommen die Daten, was sagen die Daten selbst und wofür werden sie vielleicht benutzt?Statistik ist oft schwer zu verstehen: "Traue keiner Statistik, die du nicht selbst gefälscht hast."Man muss sich immer fragen, wie Daten eigentlich erhoben werden, um zu wissen, welche Schlüsse man aus Statistiken ziehen kannGrundthese und unser Motto: Kenne dein Messverfahren!Beispiel Rauschprofil von Kameras: Hat eine Kamera in einer physikalischen Messung etwas Bedeutendes gezeigt oder war es nur ein Artefakt der Kamera?Daten und die Methode ihrer Erhebung müssen immer hinterfragt werdenErzählung: Wenn ein Data Scientist nicht schlafen kann (00:06:53)
Mit Data Science wird Wissen gewonnenEine Fragestellung oder ein Problem braucht eine LösungDaten erfassen über das Problem (Schlafmangel) und seine Rahmenbedingungen (Verhalten, Ernähurung, Stimmung)Daten korrelieren: Schlafmangel mit Verhalten, Ernährung und Stimmung abgleichenAus den Beobachtungen Schlüsse ziehenKorrelation ist noch nicht Kausalität: den Blick weiten und auch die Daten anderer Tage angucken, gezogene Schlüsse überprüfenKausalität im Experiment überprüfen: Rahmenbedingungen verändern und neue Daten erfassenAblesen, ob sich Hypothesen bestätigt haben, ggf. erneut anpassen und Daten sammelnAm Ende können auf Basis von Daten Entscheidungen getroffen werdenWas ist Data Science? (00:10:02)
Datenerfassung: Mikro, Kamera, Umfragen, Bewegungsprofile, NutzerverhaltenDatenanalyse: klassisch mit Statistik, Text aus Tonaufnahmen extrahieren, Objekterkennung auf FotosMaschinelles Lernen, wird bereits manchmal als Künstliche Intelligenz bezeichnet, ist aber noch nicht als solche zu verstehenEine spezielle Form des Maschinellen Lernens sind Neuronale NetzeProgrammieren -> HackermentalitätStatistik zu können reicht nicht aus, man muss auch programmieren können, um etwa Schritte zu automatisieren, die sich wiederholenBeispiel: WildtierkameraDatenanalyse passiert schon bei der Datenerfassung: die Kamera soll nur auslösen, wenn ein Tier vor der Kamera istWenn die Kamera schließlich aus dem Wald geholt wird, geschieht die umfassende Analyse: Welche Tiere wurden fotografiert?Wie oft sind an diesem konkreten Ort diese Tiere erfasst wurden und zu welcher Zeit?Daten mit anderen Kamerastandorten in Verbindung bringen und über mehrere Jahre betrachtenZeigt die Ausbreitung und die Anzahl einer Population beobachteter Tierarten (Beispiel Ansiedlung Luchse im Harz)Mittels Maschinellem Lernen müssen keine Menschen die umfangreichen Bildsammlungen auswerten, Auswertung wird automatisiertSoftware erkennt das TierDas Trainieren des Programms ist aufwändig, die Anwendung dann aber nicht mehr, sie erleichtert viele Arbeitsschritte durch AutomatisierungWofür Data Science? (00:17:15)
Ziel von Data Science: informierte Entscheidungen treffenData Science generiert Daten und daraus gewinnen wir Wissen über die Welt um uns herumDieses Wissen hilft uns zu entscheiden, z.B. wie Technik um uns herum funktionieren soll, welche Ziele sie haben kannFirmen beauftragen Data Scientists mit Datenerfassung und -analysen, um eine Geschäftsstrategie zu entwickelnBeispiel Glasfaserkabel: Ein Unternehmen möchte wissen, in welcher Stadt sie mit dem Ausbau von Glasfaserkabeln anfangen solltenBeispiel Diskriminierung: Auch gesellschaftliche Aspekte lassen sich aus Daten ablesen, wie und wo findet etwa Diskriminierung statt?Beispiel Statistiken: Wahlumfragen verschiedener Institute fallen immer etwas anders aus, zeigt, dass es auch drauf ankommt, wer Daten sammelt und wie er sie auswertetWahlstatistiken können dabei auch den Effekt haben, sich auf Wahlentscheidungen von Wähler*innen auszuwirkenDas kann dabei völlig unbewusst passieren, oder bewusst, weil man sich etwa an der 5%-Hürde orientiertEs ist auch immer die Frage, wer die Daten mit welchen Hintergrund analysiertBeispiel Kredite: Betrachten übervorsichtig ihre Daten und neigen dazu die Vergangenheit zu reproduzieren (alte Klischees haben Bestand, Gruppen werden ausgeschlossen)Klassisches Beispiel ist hier auch die SchuFaBeispiel Postleitzahlen: Beim Einkaufen werden wir nach Postleitzahlen gefragt, das kann verschiedene Effetke habenWerbung verteilen: Reichweite messen, wo hat Werbung zu mehr Kunden geführt, woher kommen Kunden, welche Werbung funktioniert?Postleitzahlennutzung durch Dritte: Institutionen kaufen die Datensätze auf und verkaufen sie weiter, z. B. an KreditinstituteDiese können dann sehen, ob ein Kunde in einem Stadtteil mit hoher Kaufkraft lebt und ihre Entscheidung über Kredite daran bindenData Science spielt gerade beim Umgang mit personenbezogenen Daten eine große Rolle, gerade auch im Kontext DiskriminierungZum Thema Diskriminierung durch Daten ist bereits eine Folge in PlanungWas macht Helena als Data Scientist konkret? (00:22:50)
Die Arbeit besteht aus sehr viel SoftwareentwicklungFür Kunden, die Daten vorliegen haben, werden eigene Lösungen entwickeltDabei werden verschiedene statistische Modelle entwickelt oder implementiertBeispiel Wetterdaten: Projekt für das Europäische Zentrum für mittelfristige Wettervorhersagen (EZMW) zusammen mit einer DesignerinZiel war es aus den Daten eine Darstellung zu entwickeln, die nicht verschweigt, dass Wettervorhersagen unsicher sindKonzept entwickelt, wie man darstellen kann, mit welcher Wahrscheinlichkeit eine Wetterprognose für einen bestimmten Tag zutrifftDatenbasis des EZMW genutzt: Sie berechnen immer 50 Szenarien mit leicht verschiedenen Werten aus, die Wahrscheinlichkeit liegt nur bei 30%Ergebnis war eine Darstellung, die verständlicher die Wahrscheinlichkeit von Wettervorhersagen vermitteln kannLeider ist der Dienst nicht mehr online, aber auf GitHub kann man sich die grafischen Darstellungen dazu ansehenArbeitsalltag eines Data ScientistKonkrete Aufgabenstellung, die man zu bearbeiten hat, oft innerhalb eines Teams, mit dem man sich besprechen mussBasis ist oft ein Testdatensatz, an dem man entwickeln kann: Algorithmen, Auswertemethoden und Analysen testen oder grafische Darstellungen und PlotsTestdaten verhindern, dass Geschäftsgeheimnisse oder personenbezogene Daten an Data Scientists ausgegeben werden müssenNachteil ist, dass Testdaten oft andere Eigenschaften haben, sodass ein späterer Testlauf mit echten Daten oft zu Bugs (Fehlern) führtSpannend an Data Science: Neue Rätsel und Logik Puzzle lösen, wo war die Annahme falsch, woran hat man nicht gedacht, was passiert mit den Daten?Beispiel Adressdaten: wenn man online einkauft, muss man oft seine Adresse angeben, die Eingabemaske kann schon zum Problem werdenFehlerquellen sind Sonderzeichen oder Adressen ohne Straßenangabe und Hausnummer oder internationale Adressen (nicht einheitlicher Aufbau von Adressdaten)International verschickte Pakete sind daher anfällig für Fehler in der Datenerfassung und -ermittlungKaputte Adressdaten können Menschen (Paketzusteller, Paketshopmitarbeiter) zum Glück oft ausgleichen können, Drohnen wären damit vermutlich überfordertData Scientists haben oft Verschwiegenheitsverpflichtungen, deswegen kann Helena nicht wirklich über aktuelle Projekte reden, an denen sie arbeitetWas muss man als Data Scientist können? (00:35:41)
Muss man programmieren können? Wie sehr muss man sich im IT-Bereich auskennen?Im Bereich Statistik oder Mathematik kommt es nicht so sehr auf das Programmieren an, grafische Programme wie Tableu können einem das ein bisschen abnehmenDas wären dann aber für Helena eher Statistiker und keine Data ScientistsFür Helena gehört zu Data Science neben Statistik ganz klar auch das Programmieren, dass man Ideen umsetzen kannUm wirklich sicher mit Statistik umgehen zu können, reicht es nicht, nur mal ein Buch darüber gelesen zu haben, man sollte es schon im Studium gehabt habenMan muss verschiedene Anwendungsbereiche können und kennen, sodass man die je nach Fall anwenden kannEs wird von den meisten Data Scientists erwartet, dass sie schon sehr viel gesehen haben und das Ganze in Software umsetzen könnenEin Data Scientist muss sich in das Thema oder Tätigkeitsfeldes des Kunden einarbeiten und ein Verständnis für das wirtschaftliche Interesse des Kunden habenBeispiel Flugverspätungen: Es gibt bestimmte Kenngrößen wie Flugverspätungen dargestellt werdenMan muss diese Kenngrößen verstehen, damit die Analsysen diese Kenngrößen ausliefernUnd man muss verstehen, wo Probleme auftreten können, die das Ergebnis eventuell verzerrenEin Data Scientist muss viel Interesse, Verständnis und Logik mitbringen und bereit sein sich in viele neue Bereiche hineinzudenkenNeue Projekte sind daher immer spannend, weil man immer mit neuen Fragestellungen konfrontiert wirdManchmal muss man aber auch einfach nur eher unspannende Dinge abarbeiten, die gut bezahlt werdenWas ist der Unterschied zwischen Data Scientists, Data Analysts und Data Engeniers?Helena unterscheidet für sich nicht nach solchen Kategorien und zweifelt daran, wie zielführend das istIn ihrer Praxis hat das bisher keine Rolle gespieltFür Helena liegt der Reiz in der Vielseitigkeit, daher ist sie auch Freiberuflerin, weil sie so immer mit neuen Aufgaben konfrontiert wirdSie kann natürlich nur für sich selbst sprechenFazit (00:42:12)
Data Science ist eine Disziplin, deren Ziel es ist, Erkenntnisse zu gewinnen und dafür Daten zu sammeln und zu verarbeitenIn den nächsten Folgen werden wir dann schauen, was es für Varianten gibtNächstes Thema: Coronadaten am 25.07.2020 (00:43:30)
Im Moment erleben wir die Covid-19-EpedemieWir sind keine Epidemiologen, aber wir wollen einfach mal über die jetzt anfallenden Daten sprechenJeder spricht über Fallzahlen, Sterblichkeit, Übersterblichkeit und AnsteckungswahrscheinlichkeitenWas gibt es für Daten? Was gibt es für Fallstricke mit diesen Daten? Wie kann man sie sinnvoll einordnen?Aber wir wollen keine inhaltliche Aussage treffen, sondern eher Muster beschreibenWir kriegen jeden Tag neue Werte und Zahlen präsentiert und manche fragen sich: Worauf muss ich da achten?Call to Action (00:43:40)
Wenn euch unsere erste Folge gefallen hat, empfehlt sie weiter und folgt unsTwitter unter @datenlebenWebseite: https://www.datenleben.de/Schreibt uns bei Fragen oder Themenvorschlägen!Schlagworte zur Folge
Data Science, Messverfahren, Maschinelles Lernen, Berufsfeld Data Science, Arbeitsalltag
Quellen
Wikipedia: Liste geflügelter Worte –Traue keiner Statistik, die du nicht selbst gefälscht hastGitHub, ktrask: ESOWC-2018-visualisationWeiterführende Links
Stratum0DLF Kultur: Zusammenhang Postleitzahlen und KrediteWikipedia: Postleitzahlen in der PrivatwirtschaftAntidiskriminierungsstelle des Bundes: Diskriminierungsrisiken durch Verwendung von AlgorithmenSüddeutsche Zeitung: Wahlumfragen sind ein Problem für die DemokratieBundeszentrale für politische Bildung: Wahlkabine zum Thema Wahlumfragen, bpb-Podcast zur Bundestagswahl 2017Deutscher Bundestag, Wissenschaftliche Dienste: Einfluss vonMeinungsumfragen und Demoskopien aufWählerverhal-ten und WahlergebnisseLuchsprojekt HarzWikipedia: Maschinelles LernenWikipedia: Data Science