Intro (00:00:00)
Thema des Podcasts (00:00:18)
Willkommen zur dreißigsten Folge beim datenleben-Podcast!
Wir sind Helena und Janine und möchten euch mitnehmen in die Welt der Daten.
Was ist Data Science? Was bedeuten Daten für unser Leben? Woher kommen sie und wozu werden sie benutzt?
Das sind alles Fragen, mit denen wir uns auseinander setzen.
Wer schon immer mehr über Daten und deren Effekt auf unser Leben wissen wollte, ist hier genau richtig.
Thema der Folge (00:00:41)
Wir reden mal wieder über offene Daten, aber dieses Mal im AllgemeinenWofür braucht man das, was kann man damit tun?Wir werden darüber sprechen, wo offene Daten vorkommen und zu finden sindUnd uns vor allem mit den Bereichen Forschung und Politik befassenDabei wird gleich natürlich auch die Ambivalenz im Vordergrund stehen: Was ist an offenen Daten toll?Und welche Probleme können mit offenen Daten zusammenhängen?Warum ist das Thema wichtig? (00:01:27)
Daten werden an vielen Orten erhobenWir zahlen Steuern, dass Daten erhoben werden, aber wir wollen dann nicht nochmal bezahlen um die nutzen zu dürfenViele neue Optionen mit offenen Daten möglichZum Beispiel so etwas, was wir in der Weihnachtsmarktdaten-Folge gemacht habenSo bekommt man Informationen, die man aus den reinen Daten nicht bekommen hatteAuch bei Forschungsdaten: wir zahlen öffenltichen Forschung, aber dürfen die Paper nicht lesen ohne dafür zu bezahlenEinspieler: Wem gehören Daten und wer darf sie nutzen? (00:02:35)
Was gibt es eigentlich für ... sagen wir mal Kategorien ... von Daten? Daten des Staates, Daten der Forschung, Daten der Unternehmen oder Privatwirtschaft und Daten der MenschenDer Staat möchte wissen wer lebt hier, wo leben diese Menschen, arbeiten sie, sind sie krankenversichert, etc.Der Staat hat aber auch Daten über andere Dinge, wie viel Geld ihm wofür zur Verfügung steht, wo Straßen verlaufen, welche Unternehmen es gibt, wer oder was wie viele Steuern zahlen muss, wie der Zustand von Autobahnbrücken istDie Forschung sammelt Daten rund um ihre Entwicklungen und je nach Fachgebiet sind das völlig unterschiedliche DingeEs werden Experimente gemacht, Dinge ausgewertet, Studien erstellt, Körper untersucht, Werte notiert, Umfragen gemacht etc.Die Unternehmen oder die Privatwirtschaft erfassen Daten, die sich entweder mit ihren Produkten beschäftigen oder mit ihren Kund*innenDenn diese müssen verwaltet werden und sie sollen mehr kaufenDaten der Menschen sind Daten, die wir selbst aktiv oder passiv erhebenWir lassen uns auf Smartphones Gesundheitsdaten anzeigen, benutzen Fitnesstracker, werden von außen getrackt und geben auf die eine oder andere Art und Weise unsere Daten mehr oder weniger freiwillig weiterDie vierte Kategorie ist besonders, denn diese Daten fließen zu großen Teilen an den Staat, die Forschung und an alle Unternehmen, die wir nutzenAber was bekommen wir eigentlich für Daten zurück?Könnten wir nicht manche Dinge viel besser nachvollziehen, wenn wir in der Lage wären unsererseits Einblicke zu bekommen?Wem welche Daten gehören und wer sie wann unter welchen Umständen nutzen darf – das sind zwei der große Fragen, wenn es um Daten gehtUnd diese sind garantiert nicht einfach zu beantworten, gerade dann nicht, wenn es um Privatssphäre, Demokratie, Fortschritt und Gesundheit gehtWarum sind Daten wichtig? (00:05:22)
Im Einspieler haben wir vier arten von daten unterschieden: staatliche Daten, Forschungsdaten, Unternehmensdaten und Daten, die wir selbst in unserem Alltag aktiv oder passiv erzeugenWir gucken uns vor allem jetzt Daten vom Staat und der Forschung anAber erstmal generell nochmal kurz, warum Daten überhaupt wichtig sind:Überblick, Analyse, WissenDaten erzählen viel mehr, als uns bewusst ist: Erkenntnisse werden generiert, an die vorher gar nicht gedacht wurde, dass die in den Daten stecken könnenEs kann aber auch ein zu Viel an Daten geben und diese können auch überschätzt werdenDaten sind ein pool, aus dem Wissen generiert werden kannDieses Wissen kann benutzt werden: wer Wissen hat, kann handelnGgf. auch andere manipulieren – es geht um die Deutungshoheit über die DatenOffene Daten können das verhindern, weil auch andere mit den gleichen Daten arbeiten können und so Ergebnisse prüfen könnenWir hätten gerne offene Daten, damit sie für Einzelne oder die Gesellschaft nutzbar werdenAuch für Dinge ohne kommerzielles InteresseWas sollten offene Daten mitbringen? (00:08:26)
Nicht nur auf Ergebnisse Zugriff haben, sondern auch auf RohdatenDie ermöglichen unabhängige Überprüfungen und bieten Optionen, Themen mit einem anderen Blickwinkel zu betrachtenDafür sind auch maschinenlesbare Daten nötig, damit man weiterarbeiten kannEs gibt Daten, auf die niemand einen Anspruch erheben sollte oder kannTheoretisch kann manche Daten jede*r selber erheben: Zum Beispiel KartendatenDer Detailgrad der Daten ist aber von den professionell erhobenen höherAber es gibt keinen Grund, diese nicht allen zur Verfügung zu stellenSollten alle alles wissen können? (00:10:03)
Ist es wirklich gut, wenn alle alles wissen können? Welche Probleme gibt es bei offenen Daten?Keine abschließende Antwort auf die Frage, ob es gut ist, wenn alle alles wissen könnenIst auch eher eine persönliche MeinungPrivatsphäre ist gut, es gibt irgendwo eine GrenzeProbleme können aber auch sein: Wie wurden die Daten erzeugt?Eventuell nicht sinnvoll bereit gestellt: kein Kontext, wie wurden die daten erhoben?Kenne dein Messverfahren ist hier auch wichtigGerade bei Rohdaten ist die Gefahr hoch, dass es auch schief gehen kannBeispiel: Unfallstatistik-Folge zu Unfällen mit TodesfolgeWenn unklar ist, wie die Schuldzuweisung entsteht, ist unklar, ob die Statistik die richtige Aussage trifftEs muss gut überlegt werden, welche Daten wirklich offene Daten sind und wann offene Daten vielleicht auch zu personenbezogenen Daten werden können, die schützenswert sindAber gleichzeitig will man vielleicht für Vertragsverhandlungen auch wissen, wem zum Beispiel eine Firma gehörtDafür gibt es das Handelregister, das vor kurzem sogar online gestellt wurdeProblem: Welche Daten stecken da alle drin?Lilith Wittmann hat sich das angeguckt: Personenbezogene Daten im #HandelsregisterAls sie dazu zu twittern begann, hieß es noch Personalausweiskopien seien nicht gefunden worden, das hat sich, glaubt Helena, bis heute geändertAuf jeden Fall enthalten: große Menge Ausweisnummern, vermerkte Meldeadressen und mehrWichtige Frage: Welche Daten wären wirklich notwendig, dass darauf zugegriffen werden kann und welche nicht?Aber wie sind hier die juristischen Implikationen, da die Daten ja auch vorher schon gegen Geld einsehen konnteJedenfalls ein Beispiel dafür, dass jetzt etwas online gestellt wurdeBeschränkt ist der Zugriff durch Begrenzung wie viel runtergeladen werden kann und dass es nicht durchsuchbar istWäre cool, könnte es beliebig weiterverarbeitet werden, aber vorher müsste das "aufgeräumt" werden – eine Schutzebene mehr für manche Daten wäre gutBeispiel nochmal Karten: Gebäudedate oder Straßendaten sollten offen sein Aber wer konkret da wohnt, ist eine andere Sache -> Schutz von personenbezogenen DatenWelche staatlichen offenen Daten gibt es – und welche nicht? (00:15:36)
Es gibt in Deutschland ein Open Data GesetzGesetz für die Nutzung von Daten des öffentlichen Sektors (Datennutzungsgesetz - DNG) § 1 Grundsatz der offenen Daten
(1) Daten, die in den Anwendungsbereich dieses Gesetzes fallen, sollen, soweit möglich, nach dem Grundsatz „konzeptionell und standardmäßig offen“ erstellt werden.
(2) Eine Bereitstellungspflicht oder ein Anspruch auf Zugang zu Daten wird mit diesem Gesetz nicht begründet.
Darin ist auch festgehalten für welche Daten das gilt und für welche zum Beispiel nichtU.a. werden hier als Einschränkungen der Schutz personbezogener Daten genannt, Geschäftsgeheimnisse, nationale Sicherheit und öffentliche InteressenÖffentliche Stellen und Unternehmen der Daseinsvorsorge müssen die Nutzung hochwertiger Datensätze in maschinenlesbarem Format über geeignete Anwendungsprogrammierschnittstellen und, falls technisch erforderlich, als Massen-Download ermöglichen. Quelle
In wie fern das der Fall ist und hier schon umgesetzt wird, muss man natürlich vielleicht einfach mal genauer hingucken oder jede*r sich selbst fragenMassendownload hieße, alles auf einmal ohne Beschränkung runter zu ladenDas Datenportal für Deutschland Open Government: Verwaltungsdaten transparent, offen und frei nutzbarGovData ist noch etwas leer und vielleicht auch unübersichtlichQualität, Umfang, Inhalte weist alles noch einige Lücken aufFührt uns aber zu der Frage, welche staatlichen offenen Daten es denn gibt und welche eigentlich nicht?Kartendaten wären ja schönBeispiel: In Deutschland müssen (teilweise) Windräder einen Abstand von 1000 Metern zu Wohnbebauung habenWären solche Flächen tatsächlich ausgewiesen, könnte dies überprüft werdenWie viele Orte gibt es dann noch, wo Windräder hin könnten?Dann könnte viel besser diskutiert werden, ob die Flächen ausreichend sindJemand fand auf einer staatlichen Webseite mal einen Datensatz und stellte diesen onlineJemand anderes ergänzte die GebäudedatenDas fand das Bayrische Landesamt für Digitalisierung, Breitband und Vermessung nicht gut und es wurde juristischLeider nichts Neues dazu gefunden, falls da wer mehr Erkenntnisse hat, gerne Bescheid sagenAktuell stellt Bayern aber lustigerweise selbst Geodaten kostenlos zur Verfügung bis Ende des JahresGrund ist die Grundsteuer, für die aktuell Eigentümer neu Sachen einreichen müssenIn Braunschweig werden Verkehrsschilder und Lichtsignalanlagen von der Bellis GmbH betreutProblem: Die Stadt kennt nicht die exakten Positionen dieser Schilder und AnlagenDie Daten gehören Bellis und die Stadt hat sie nicht mitgekauftOffene Daten wären in diesem Fall auch interessant für die Kommune gewesen Soll zeigen: Ein gutes offene Daten Portal wäre auch für die Menschen, die in den Kommunen arbeiten eine gute SacheEs gab in Braunschweig auch mal eine Karte für Schäden und Gefahrenstellen auf Radwegen, die von Benutzer*innen zusammengetragen und dann auch von der Stadt benutzt wurdeAuch bei so etwas könnten gute Datenportale in beide Richtungen arbeitenWie kriegt man mehr Daten aus dem Staat heraus?Zum Beispiel mit dem InformationsfreiheitsgesetzInformationsfreiheit: ein Recht auf Zugang zu amtlichen InformationenEs gibt ein Informationsfreiheitsgesetz auf verschiedenen Ebenen, zum einen auf der BundesebeneAber auch auf Länderebene, hier sind allerdings 3 Bundesländer noch immer nicht mit dabei: Niedersachsen, Bayern und SachsenInnerhalb dieser Länder kann es aber auch auf kommunaler Ebene eigene Informationsfreiheitssatzungen gebenIn niedersachsen sind das übrigens Göttingen und Braunschweig und inzwischen noch 9 andere KommunenWas bundesweit angeht, ist Frag den Staat übrigens auch eine super AnlaufstelleAuf dem portal bekommt ihr einstiegshilfen ins "datenbefreien"Ihr könnt nachlesen, welche Anfragen bereits gestellt wurden oder mit Hilfe von Frag den Staat auch eigene Anfragen stellenProblem mit diesen Daten: Oft als PDF und müssen mühsam erfasst werden für AnalysenDeswegen ist Maschinenlesbarkeit ein wichtiger PunktDer andere ist die Aktualität, wenn Daten zum Beispiel nur jährlich veröffentlicht werdenSchnittstellen müssten auch Live-Daten bereit stellen, damit gute Analysen möglich sindAber einige Kommunen machen das tatsächlich schonWie steht es um offene Daten in der Forschung? (00:33:29)
Helena, wie steht es denn um offene Daten in der Forschung?Ferschung ist oft aus Steuergeldern finanziert, aber Ergebnisse sind nicht allgemein verfügbarEin Ansatz der sich inzwischen immer weiter verbreitet, nennt sich Open Access (offene Verfügbarmachung von Ergebnissen)Das ist nicht exakt das gleiche wie Open Data (Daten, aus denen die Ergebnisse generiert werden)Leider hat sich historisch die gedruckte Veröffentlichung durchgesetzt, was eben mit Kosten verbunden istDigital ist eine viel bessere und günstigere Verbreitung möglichAber in der Wissenschaft hängt Reputation an den Veröffentlichungen und die angesehenen Journale sind oft noch nicht Open AccessGibt es bei Förderern wie der Deutschen Forschungsgemeinschaft oder in der EU Open Data Policys?Im Januar 2006 hat der Hauptausschuss der DFG Richtlinien für die Bereitstellung von Ergebnissen aus DFG-geförderten Projekten im Open Access verabschiedet, die 2020 aktualisiert worden sind. Die DFG erwartet die Veröffentlichung von Ergebnissen aus den Projekten in geeigneten Open-Access-Zeitschriften oder die Bereitstellung bereits publizierter Aufsätze über Open-Access-Repositorien (s. DFG-Vordruck 2.00 – 1/20, S. 41). Quelle
The Commission supports open access, specifically in its funding programmes. Quelle
Beides scheint das zu befürworten und dazu aufzurufen, aber nicht mit letzter Konsequenz zu verlangenWobei "Unterstützung" auch finanzielle Unterstützung bedeuten wird, was schonmal ein Anfang istWünschenswert wäre aber, wenn Förderer das festlegen, dass staatlich geförderte Daten Open Access sein müsstenProblem mit offenen Daten in der Forschung: Welche Daten machen Sinn, dass sie offen weiterverteilt werden?Das sind sehr viele Informationen, denn es kann viel gemessen werden, aber auch Rahmenbedingungen müssen gründlich dokumentiert werdenUnd manche Dinge zu verschriftlichen kann schwierig oder sehr aufwändig seinNicht alle Daten sind vom Aufwand her sinnig zur Verfügung zu stellenFrage nach Relevanz ist wichtigMedizinische Studien sollten zum Beispiel offen seinEin Paper hat Gründe für und gegen offene Daten dargelegt und zwar auf der individuellen SeiteData sharing as social dilemma: Influence of the researcher’s personalityJüngere Wissenschaftler wollen eher Sachen, auch Daten, offen publizieren, ältere nichtFür ein Individuum in der Wissenschaft ist Reputation wichtig, und das geschieht bisher Hauptsächlich dadurch, dass man Paper veröffentlicht und diese zitiert werdenSoziales Dilemma: Wenn ein wissenschaftler Daten für sich behält, kann nur der daraus veröffentlichungen generieren, und er muss weniger Zeit fürs Daten veröffentlichen investieren und kann stattdessen Paper schreibenFür die Gesellschaft wäre es lohnenswerter, wenn mehr Daten veröffentlicht würden, denn wenn alle die Daten für sich behalten, bleiben auch Erkenntnisse auf der StreckeZweitverwertung von Daten ist spannend, Beispiel: Exoplaneten im Sonnensystem konnten auch durch historische Daten nachgewiesen werdenOffene Daten können also auch zu neuen Erkenntnissen führenEmpfehlung aus dem Paper:Klare Regeln der Geldgeber zu Data SharingUnterstützung der Arbeitgeber dabei, Daten zu sharen (Arbeitsaufwand)Ein dritter Vorschlag bezieht sich auf Beschränkte zugänge, die Empfehlung teilt Helena nichtWeitere Frage ist auch: Zu welchem Zeitpunkt sollten Daten offen zur Verfügung gestellt werden?Einige Satellitendaten sind offen verfügbar (Beispiel: Sentinel der ESA) Menschen, die aber zum Beispiel mit dem James Webb Weltraumteleskop arbeiten wenden viel Energie und Arbeits auf, um ihre Daten zu erhaltenWären die Daten sofort öffentlich, wären vielleicht andere mit der Publikation schneller und würden "den ganzen Ruhm" erntenLösungen für so etwas sind Sperrfristen: 1 Jahr haben Forschende Zeit selbst zu veröffentlichen, danach sind die Daten dann öffentlichenBei Studien wäre es gut, würden Daten mit veröffentlicht, weil dann die Studien besser überprüft werden könntenStichwort: Reproduktionskrise in der PsychologieNur weil es eine Studie gibt, ist es nicht gesichert, dass das Ergebnis den Tatsachen entsprichtOffene Daten könnten dabei helfenBisher wird es mit Metastudien ausgeglichen, darüber hatten wir in der Drogenkonsum-Folge gesprochenOffene Daten erhöhen Nachvollziehbarkeit und ermöglichen ZweitverwertungenMit welchen offenen Daten haben wir schon gearbeitet? (00:50:48)
Luftdaten: Selbst Daten erhoben, Sensorn Community, Umwelt BundesamtUBA Daten waren aber nicht wirklich akkurat zu benutzen - wie wurde gemittelt?Keine Rohdaten, nur eine AuswahlKommunale Daten (Unfallstatistik, Weihnachtsmarktbesuchszahlen)Statistisches Bundesamt DeutschlandTwitterbots: Tsunami-Warnungen, Erdbeben und einige mehrDaten händisch aus Wikipedia extrahiertWir packen euch unter weiterführende links nochmal ein paar Portale für offene Daten reinWas vielleicht noch zu berücksichtigen ist, wenn ihr mit offenen Daten arbeitetAchtet auf die angegebenen LizenzenNur weil etwas offen zugänglich ist, heißt es nicht, dass ihr alles einfach so nutzen könnguckt nach, ob es Lizenzen gibt, die zum Beispiel die Nennung des Urhebers der Daten verlangen etc.Auch bei Offenen Daten ist Quellenarbeit sehr wichtigFazit (00:54:23)
Mehr und leichter zugängliche offene Daten sollet es gebenGovData als Plattform ist schonmal gut, weil das Ziel stimmt langfristig mehr offene Daten zu habenWir haben strukturelle Probleme, weil Daten jahrzentelang anders erhoben wordenDigitalisierung muss noch weiter voranschreiten dafürWir müssen uns in jedem Fall Gedanken machen, wie wir mit welchen Daten umgehen, als Menschen, als Gesellschaft oder eben auch der StaatNicht alles, was der Staat weiß, sollte auch jede*r andere wissenOffene Daten sind wichtig, um auch informierte Entscheidungen treffen zu könnenZugänglichkeit und Verfügbarkeit von Daten müssen auch im Blick sein und die daraus resultierenden KonsequenzenNächste Folge: Noch im Oktober (00:57:18)
Wir wissen noch nicht genau, was es thematisch wirdDiese Folge hier wurde wegen Urlaubszeit etwas früher aufgenommen, deswegen haben wir noch keine Zeit gehabt, uns konkrete Gedanken zu machen, was es gibtCall to Action (00:57:38)
Wenn ihr uns weiter hören möchtet, folgt uns auf Twitter unter @datenleben & Mastodon unter @[email protected] Oder besucht unsere Webseite: www.datenleben.deHinterlasst uns gerne Feedback, wir würden uns darüber sehr freuenIhr könnt uns als Data Scientists auch Buchen für Analysen oder ProjekteHabt ihr Fragen oder Themen, die euch interessieren? Dann schreibt uns!Outro (00:58:19)
Schlagworte zur Folge
Offene Daten, Open Data, Open Access, Informationsfreiheit, Politik, Forschung, Wissenschaft
Quellen
Twitter, @LilithWittmann: Personenbezogene Daten im #Handelsregister. ...Wikipedia: Open Data. Open Data GesetzGesetze im Internet: Gesetz für die Nutzung von Daten des öffentlichen Sektors. § 1 Grundsatz der offenen DatenGesetze im Internet: Gesetz für die Nutzung von Daten des öffentlichen Sektors. § 2 AnwendungsbereichGesetze im Internet: Gesetz für die Nutzung von Daten des öffentlichen Sektors. § 9 Hochwertige Datensätzenetzpolitik.org, Pia Stenner: Bayern geht gegen Open-Data-Aktivist:innen vorLandesamt für Digitalisierung, Breitband und Vermessung: BayernAtlas-GrundsteuerWikipedia: InformationsfreiheitFrag Den StaatDeutsche Forschungsgemeinschaft: FAQ Open AccessEuropäische KommissionNational Library of Medicine, Stephanie B. Linek, Benedikt Fecher, Sascha Friesike and Marcel Hebing: Data sharing as social dilemma: Influence of the researcher’s personalityWeiterführende Links
Bundeszentrale für politische Bildung: Open Data. Dossierwww.wikidata.orgLilith Wittmann: bund.dev: Wir befreien das Handelsregister!Sensor CommunityUmwelt Bundesamt: Luftdaten StationenStatistisches Bundesamt DeutschlandTwitter, @NWS_PTWC: Tsunami-WarnungenTwitter, @:earthquakesApp: Erdbebenwww.govdata.de/opendata.swissdata.gv.at/www.statistik.atwww.esri-austria.atopendata.ch/data.deutschebahn.com/opendata.cern.ch/