Intro (00:00:00)
Thema des Podcasts (00:00:18)
Willkommen zur neunzehnten Folge beim datenleben-Podcast, dem Podcast über Data Science.
Wir sind Helena und Janine und möchten euch die Welt der Daten näher bringen.
Wie können wir mit Data Science und Daten lernen? Was brauchen wir um Anwendungen verstehen zu können?
Wer schon immer mehr über Data Science wissen wollte, ist hier genau richtig.
Thema der Folge (00:00:40)
Heute geht es quasi um das Lernen: wer lernt, etwa Data Science spezifische Anwendungen, wird immer mit Beispielen überschüttetDabei bleiben diese Beispiele über die Jahrzehnte identisch, wenn sie sich ein Mal bewährt habenDiese Beispieldaten -- oder auch Standarddatensätze -- haben also oft eine längere GeschichteUnd manchmal ist diese gar nicht so unproblematischDeswegen geht es heute um solche Daten und darum, dass wir mal hinsehen wollen:Woher kommen diese Beispiele?Sind sie noch zeitgemäß?Welchen Zweck sollen sie erfüllen?Warum ist das Thema relevant? (00:01:56)
Wir haben selbst solche Standarddatensätze schon benutzt, z.B. in dl013: datenvisualisierungDann sind wir auf Twitter darauf aufmerksam geworden, dass der Datensatz mit den Irisblättern von einem Menschen eingeführt wurde, den wir vielleicht nicht reproduzieren wollenDie Frage war: Ignorieren wir diesen Hintergrund der Daten oder setzen wir uns kritisch auseinander?Wir haben uns natürlich für letzteres entschiedenEinspieler: Standarddatensätze und warum es sie gibt (00:02:42)
Herr von Ribbeck auf Ribbeck im Havelland,
Ein Birnbaum in seinem Garten stand,
Und kam die goldene Herbsteszeit,
Und die Birnen leuchteten weit und breit,
Da stopfte, wenn’s Mittag vom Thurme scholl,
Der von Ribbeck sich beide Taschen voll,
Und kam in Pantinen ein Junge daher,
So rief er: „Junge, wist’ ne Beer?“
Und kam ein Mädel, so rief er: „Lütt Dirn,
Kumm man röwer, ick hebb’ ne Birn.“
Theodor Fontane schrieb 1889 eines der bekanntesten deutschen Gedichte:Herr von Ribbeck auf Ribbeck im HavellandNoch immer in den Lehrplänen und erfreut oder quält Schüler*innen seit GenerationenAn dem Gedicht wird gezeigt, wie man analysiert, Versmaß bestimmt und so weiterEinmal etabliert und gemocht, wird es von Lehrer*innen immer wieder aus der Mappe gezogen, eine Unterrichtseinheit, immer schon fertigUnd das ist eigentlich ein ziemlich praktisches und effizientes Vorgehen.Was wäre die Lehre aufwändig, wenn sich Lehrerinnen und Dozeninnen immer selber dichten müssen?Und genau so funktionieren auch Standarddatensätze für Programmiersprachen wie Python oder RSie erfüllen einen bestimmten Zweck, sie eignen sich um konkrete Anwendungen, Funktionen und Prozesse deutlich zu machen Wie importiere ich Daten? Warum sollte ich Daten bereinigen? Wie sortiere ich Daten nach verschiedenen Kategorien oder alphabetisch? Was passiert, wenn ich Lücken in meinen Daten habe? Wie erzeuge ich aus den Daten einen verständlichen Plot?Und warum sollte man die auch ändern, sie funktionieren ja wunderbar.Aber: Sollten wir wirklich alle Standarddatensätze immer weiter benutzen?Und was gibt es für Punkte, die vielleicht neue oder ergänzende Standarddatensätze nötig machen?Die Programmiersprachen entwickeln sich, die Menschen und die Welt um sie herum entwickeln sichWas ist problematisch am Irisdatensatz? (00:05:53)
Dann kommen wir doch direkt zum Kern der Sache: Warum diese Folge hier?Wir haben in Folge 13 Datenvisualisierung auch über den Irisdatensatz gesprochenDieser Datensatz ist standardmäßig in der Programmiersprache R enthaltenDaher wird der viel auch in der Lehre genutzt, weil jeder*m automatische diese Daten vorliegenNach Veröffentlichung der Folge, stolperten wir über einen Tweet mit berechtigter Kritik an diesem DatensatzWirft die Frage auf: Sollten wir diesen Datensatz also künftig gegen etwas anderes ersetzen?Kritik: Der Mensch der den Iris-Datensatz eingeführt hat war EugenikerKurz gefasst ist Eugenik die Idee man könne die Menschliche Population durch kontrollierte Fortpflanzung zu verbessern Vor dem zweiten Weltkrieg in weiten Teilen der Wissenschaft bereits recht populärEugenik wurde insbesondere ab 1933 wurde in Deutschland aktiv von den Nazis umgesetztMit Gesetzen, wer wen heiraten, wer Kinder kriegen darf, zu Zwangssterilisationen und erzwungenen AbtreibungenExtremform der Eugenik wurde von den Nationalsozialisten als sogenannte "Rassenhygiene" betriebenProblem an diesem Menschen mit dem Irisdatensatz: Er war leiter einer wissenschaftlichen Zeitung über Eugenik und hat nach dem Zweiten Weltkrieg die Praktiken der Nationalsozialisten weiterhin verteidigt und für in Ordnung befundenGrundsätzliches Problem ist hier, wie oft: Jemand entscheidet für andere Menschen, wie diese sich zu verhalten haben, und wer dabei als 'gut' angesehen wird.Und deswegen finden wir: unnötige Reproduktion solcher Menschen muss nicht sein, solange es sich vermeiden lässtDas ist der Kontrast zu vielen anderen aus der Geschichte, wie etwa Luther und KantLuther war auch Rassist und Antisemit, dennoch geht eine der großen Kirchen der Religionsgemeinschaften in diesem Land auf ihn zurückDas heißt man kann ihn nicht komplett ignorieren, gleiches gilt für KantAls Philosoph hat er grundlegendes geleistet, auf das sich noch immer zahlreich bezogen wirdDas ist der Unterschied zum Beispieldatensatz, es geht hier nur um einen Beispieldatensatz für Grafiken oder um bestimmte Analysemodelle zu verdeutlichen – den kann man leicht ändernWas benutzen wir denn jetzt stattdessen?Warum sind Pinguine besser als die Blütenblätter? (00:11:47)
Wir wollen nicht nur kritisieren, sondern auch aufzeigen, was stattdessen möglich ist Es geht darum für bestimmte Beispiele Daten zu haben, um mit diesen etwas zu zeigen Ein Kritikpunkt am Irisdatensatz ist, dass er sperrig ist, wenn man nicht selbst Botanik gut kenntEin Datensatz der besser geeignet und viel nachvollziehbarer ist und ohne belastende Geschichte:Der Datensatz der Palmerpenguins, erhoben von Dr. Kristen GormanBereitgestellt als R Paket von Allison Horst und Alison HillDaten stammen von der Palmerstation in der Antarktis, wo u.a. Pinguine erforscht werdenEnthalten sind zum Beispiel dann Schnabelmaße der verschiedenen PinguinartenHelena verwendet für ganz simple Beispiele auch gerne den Datensatz mtcars, der in R drin istSie hat zwar keinen Schimmer was die ganzen Spalten alle bedeuten, aber wenn es darum geht zu Zeigen wie ein Bestimmter Plot verwendet wird, ist der Datensatz ganz nützlichHier nochmal die Visualisierung mit Pinguinen statt Irisblütenblättern aus dl013: datenvisualisierungEs geht um das Clustering/das Darstellen der Cluster in diesen Dateninstall.packages("palmerpenguins")
library(palmerpenguins)
library(ggplot2)
library(ggthemes)
# Based on: http://rischanlab.github.io/Kmeans.html
#Create the Dataset:
x = penguins[,c(-1,-2,-6,-7,-8)]
x <- na.omit(x)
y = penguins$species
kc <- kmeans(x,3)
kc$centers
plot_cluster <- ggplot(x) +
geom_point(aes(bill_length_mm,bill_depth_mm, colour=paste0(kc$cluster)))
plot_cluster + geom_point(
data = as.data.frame(kc$centers[,c("bill_length_mm", "bill_depth_mm")]),
aes(bill_length_mm, bill_depth_mm, colour=paste0(1:3)),
shape=10, size=15) +
scale_colour_colorblind()
plot_actual <- ggplot(penguins) +
geom_point(aes(bill_length_mm,bill_depth_mm, colour=species)) +
scale_colour_colorblind()
Schön an diesem Datensatz ist ausserdem, dass er realistischer ist, weil Daten fehlenMan muss die Daten vor der Anwendung noch bereinigen, ehe man sie benutzen kann Das fertige Clustering sieht auch etwas weniger deutlich aus, als das der IrisdatenAuch das ist aber dadurch ein deutlich realistischerer DatensatzWas zeigt uns der Titanicdatensatz? (00:17:42)
Es gibt darüberhinaus natürlich noch viel mehr Beispieldaten, die immer wieder auftauchenIn einem R-Kurs, an dem ich teilgenommen habe, gab es zum beispiel einen Datensatz mit Chartplatzierungen der letzten Jahrzehnte Also auch Namen, die einem vielleicht gar nicht mehr richtig viel sagenAllerdings ist das auch für den Anwendungsfall insofern egal, als es auch um die übung geht, die damit erzielt werden soll Es soll ein bestimmter Prozess veranschaulicht werden, eine bestimmte Idee die Daten zu benutzenZum Beispiel Sortieren nach: Chartplatzierung, Bandnamen oder eben einzelne Künstler*innen rauspicken und nur deren Alben anzeigenDas Ziel konnte gut erfüllt werden auch ohne zu wissen, wer die einzelnen Bands sindJeder beispieldatensatz hat also auch ein bestimmtes zielEin weiterer ist der Titanicdatensatz Wofür wird der denn genau eingesetzt, Helena?Die Titanic war ein Schiff Titanic, das Anfang des 20. Jahrhunderts gebaut wurdeEs wurden im laufe der Jahre viele Filme darüber gemachtEs galt als unsinkbar, ist dann aber auf der ersten Überfahrt gesunkenIm Datensatz enthalten: Informationen über Passagiere dieser Fahrt Name, Alter, Ticketnummer, Passagierklasse (1.-3.), hat überlebt oder nicht Datensatz wird genutzt um Algorithmen zu überlegen, die das Ziel haben, die Überlebenswahrscheinlichkeit aus den Parametern auszurechnenEs ist dann eine der Übungen herauszufinden, welche Parameter aus dem Datensatz besonders die Überlebenswahrscheinlihckeit beeinflusst hatAußerdem ist es ein realistischer Datensatz, d.h. es fehlen auch immer wieder InformationenHelena hat den Datensatz auch in der Lehre verwendet um Logistische Regression zu zeigenLogistische Regression: Aus verschiedenen Werten soll eine Kategorie herausgefunden werden Mit dem Datensatz lassen sich auch Entscheidungsbäume darstellen und kennenlernenMan kann nach Männern und Frauen oder auch Kindern filtern Dann nach der Passagierklasse etc. und so konnte immer feiner verästelt werdenAuch das macht Zusammenhänge zwischen "Hat überlebt" und "Hat nicht überlebt" sichtbarEntscheidungsbäume sind auch eine Möglichkeit eine Regression durchzuführen für AnalysenWenn jetzt etwa das Alter ein Entscheidungskriterium ist, heißt es nicht, dass es keine weiteren gibt Wie zum Beispiel die Passagierklasse als zusätzliches KriteriumWarum brauchen wir auch Diversität in Standarddatensätzen? (00:24:58)
Was am Titanidatensatz natürlich auffällt: er ist binär gedachtEs gibt männlich und weiblich oder keine Information, weil es ein historischer Datensatz ist Um aber auch Lernen und Lehre divers zu gestalten, ist auch die Frage wichtig: Was sage ich eigentlich mit diesen Beispieldaten? Welche welt vermittel ich?Es geht um Identifikation aber auch um das Abbilden von Diversität Auch Lernende und Lehrende werden natürlich besser abgeholt, wenn Datensätze auch einen Teil ihrer Lebenswelt repräsentierenEs wäre doch schön, auch diversere Daten zu benutzenKonkreter noch: Mit welchen Daten lerne ich umzugehen, welche muss ich später kennen?Es gibt in Deutschland zwei von einem Amt bereitgestellte Bevölkerungsdatensätze: Bevölkerungbestand und -bewegungDeutscher Städtetag hat diese Datensätze zertifiziert für Kommunale BevölkerungsstatistikKommunen können diese immer aktualisierten Daten abfragen 2019 musste aktualisiert werden, weil es den Geschlechtseintrag "divers" neu gabUnd wenn man jetzt diesen Datensatz nimmt und sich auch die Vergangenheit anguckt, muss man berücksichtigen, dass sich die Datenlage inzwischen geändert hatWenn sich plötzlich Verhältnisse ändern, kann das auch an Verschiebungen durch neue Option liegenDaten, die erhoben werden, können sich verändern, deswegen sollte das natürlich auch irgendwie in Lehre und Lernen Eingang findenDeswegen muss man den Titanicdatensatz natürlich nicht wegwerfen!, er ist weiterhin gutZ.B. dafür, dass Datensätze auch Strukturen gesellschaftlicher Natur aufzeigen können: Klassismus Es wird sichtbar, dass sich der Klassismus auch direkt auf die Überlebenschancen ausgewirkt hat Das ist natürlich gut, solche strukturen zu erkennen und zu lernen, welche Hintergründe es gibt, die man berücksichtigen kann Haben schon in dl004: racial profiling gut sehen können, wie kritisch es ist nicht zu hinterfragen woher Daten stammen und wie sie erhoben worden sindWelche Konsequenzen resultieren aus der Anwendung von Algorithmen auf bestimmten Daten?Deswegen muss auch Achtseimkeit eine Rolle spielen, welche Daten man wie analysiertWelche Standarddatensätze gibt es beim Maschinellen Lernen? (00:30:11)
Ein Standarddatensatz ist hier der für Handschrifterkennung: MNIST (1998)Es geht um Ziffern zwischen 0 und 9 als Bilder in einem 28x28 Pixel kleinem RasterZiffern wurden 'normalisiert', also etwa gleiche Größe und alle schwarz-weißIdee dahinter: verschiedene Algorithmen gegeneinander vergleichen zu könnenAlso wie gut ist welcher Algorithmus auf diesem Datensatz im Vergleich zu anderen Die Daten stehen Wissenschaftler*innen zur Verfügung um Verfahren zu testenSo lässt sich Vergleichbarkeit zwischen verschiedenen Forschungsarbeiten herstellenAber: Es kann sein, dass ein Verfahren schlechter abschneidet, obwohl es sehr gut istWeil es auf anderen Daten besser funktioniert und ein schlechterer Algorithmus aber auf den Standarddaten sehr gut funktioniertAnderes Beispiel für so einen Standarddatensatz für Bilderkennung ist der FERET-DatensatzFERET steht für Facial Recognition TechnologyHier geht es auch um Vergleichbarkeit und das Erkennen von GesichtsausdrückenWie sieht das denn mit Sprache zu text aus?Es gibt ja Firmen die mit Sprachsteuerung eine Menge Daten produzieren, wie Siri, Alexa und soDa wurden ja unfertige Produkte auf den Markt gebracht und Menschen haben geholfen die Transkriptionen zu verbessern, indem sie die Gespräche anderer angehört und verschriftlicht/Texte korrigiert habenWas sehr viele sehr unglücklich gemacht hat, als das raus kam Weiteres Problem: Diese Daten gehören Firmen, aber nicht der GesellschaftUm die Lücke (keine große Basis an Sprachdaten für Training von Algorithmen) zu füllen, hat die Mozilla Foundation das Projekt Common Voice ins Leben gerufenTexte werden in verschiedenen Sprachen eingesprochen und als offener Datensatz zur Verfügung gestelltAndere hören dann die Sprache gegen und testet, ob das Ergebnis stimmtZiel: Entwickeln von Open Source Tools für SpracheingabenTranskribieren funktioniert schon länger, aber man musste zahlreiche Texte selber einsprechen, um die eigene Stimme zuverlässig erkannt zu bekommenDamit alle Stimmen erkannt werden können, nicht nur die eigene, braucht es Projekte wie von Mozilla Kann man beliebige Daten nutzen? (00:38:46)
Woher kommen eigentlich die Daten, die als Standarddatensätze genutzt werden?Und noch viel wichtiger: Wem gehören die Daten vielleicht? Es können nicht einfach beliebige Daten herangezogen werden, die man dann von nun an standardmäßig einsetztFirmen erheben solche Daten, man bezahlt ja teils mit seinen Daten für die Dienste, und diese Daten geben sie nicht raus Die meisten Standarddatensätze kommen daher auch aus der WissenschaftUnser Podcast könnte theoretisch auch eine Quelle sein für Menschen um Deep Fakes unserer Stimmen zu erzeugenAußer uns gibt es natürlich noch andere Menschen und Gruppen, die Sprache aufzeichnen Ein Beispiel ist der Datensatz der Māori die ca. 300 Stunden Sprache mit Transkript in ihrer Muttersprache angefertigt haben Hier war das Thema, wem sie Zugriff auf diese Daten gewähren Sie wollen nicht, dass westliche IT-Unternehmen ihre Daten für Produkte benutzen, die sie wiederum einkaufen müssten So würde auch dort wieder die gesamte Wertschöpfung hängen bleiben Deswegen: Sie stellen die Daten nur ihrer eigenen Bevölkerungsgruppe zur Verfügung Vorteile: Wertschöpfung bleibt bei ihnen, wenn sie selbst daraus Dienste entwickelnAuch die Macht über die Daten wird damit nicht aus der Hand gegeben (spätere Anwendungen)Beinhaltet auch die Erhaltung der eigenen Sprache, die früher zum Beispiel an Schulen verboten war So etwas betrifft ja sehr viele Sprachen auf der Welt In Neuseeland gerade generell größeres Thema mehr Māori-Worte wieder zu verwendenAotearoa statt Neuseeland, um Māori wieder mehr von der genommenen Sichtbarkeit zurück zu gebenFazit (00:44:42)
Man muss die Dinge nicht so lassen, wie sie sindDie Welt besteht aus furchtbar vielen DatenEs wäre schön, wenn Lehrende hingucke, welche Beispiele sie nehmenGibt es bessere, die Menschen besser abholen, die mehr Spaß machen, die auch Konsequenzen vom Gebrauch der Daten zeigen?Und es geht auch um Datenschutz, wenn man jetzt an die Spracherkennung denktDeswegen nimmt Helena aus dieser Folge mit, dass wir uns damit mal im kommenden Jahr vielleicht beschäftigen wollenZum Beispiel Gesundheitsdaten und Datenschutz Helena wird künftig lieber Pinguine in ihre Kurse mitnehmen, statt historisch belasteter DatenbeispieleNächste Folge: Drogenkonsum am 06.11.2021 (00:47:15)
Wir gucken uns eine globale Studie zum Drogenkonsum 2020 an und haben uns Themen überlegt:Welche Drogen werden wie oft benutzt?Rauchen und Alkohol? Vergleich zu Schädlichkeit mit anderen Drogen?Medizinische Anwendungen? Kriminalisierung von Drogen?Call to Action (00:48:11)
Wenn ihr uns weiter hören möchtet, folgt uns auf Twitter unter @datenlebenOder besucht unsere Webseite: www.datenleben.deHinterlasst uns gerne Feedback, wir würden uns darüber sehr freuenIhr könnt uns als Data Scientists auch Buchen für Analysen oder ProjekteHabt ihr Fragen oder Themen, die euch interessieren? Dann schreibt uns!Outro (00:49:04)
Schlagworte zur Folge
Standarddatensätze, Beispieldaten, Lehre, Lernen, Programmieren, R, Python, Beispiele, Maschinelles Lernen
Quellen
datenleben: dl013 daten visualisierenWikipedia: Herr von Ribbeck auf Ribbeck im Havelland (Fontane)Wikipedia: Programmiersprache RTwitter, @VerbingNouns: Periodic reminder… the iris dataset often used to teach R was: [...]Wikipedia: Nationalsozialistische Rassenhygiene. Antinatalistische Politik und negative EugenikKristen B. Gorman et al.: Ecological Sexual Dimorphism and Environmental Variability within a Community of Antarctic Penguins (Genus Pygoscelis)GitHub, Horst AM, Hill AP, Gorman KB (2020). palmerpenguins: Palmer Archipelago (Antarctica) penguin data. R package version 0.1.0.GitHub, Rischan Mafrur: K means Clustering in R example Iris DataKaggle: Titanic - Machine Learning from DisasterStädtestatistik in Deutschland: Statistikdatensätze Bevölkerungdatenleben: dl004 racial profilingWikipedia: MNIST databaseWikipedia: FERET (facial recognition technology)towards data science, Jae Duk Seo: Independent Comparative Study of PCA, ICA, and LDA on the FERET Data SetMozilla: Common VoiceWired, Donavyn Coffey: Māori are trying to save their language from Big Techzdf heute: Māori fordern UmbenennungWeiterführende Links
Nathaniel D. Phillips: YaRrr! The Pirate’s Guide to R