In unserer zweiten Folge geht es um den unersättlichen Datenhunger von Large Language Models – und die Herausforderungen für diejenigen, die sie entwickeln und trainieren. Die Branche scheint im Panikmodus zu sein. Denn sie befürchtet, dass es schon bald nicht mehr genug hochwertige Daten geben könnte. Um ihre Modelle nicht nur auf dem neuesten Stand zu halten, sondern immer weiter zu verbessern. Und das führt zu harten Zeiten für die Integrität mancher Akteur:innen und teils mehr als fragwürdigen Praktiken. Will man etwa das GenAI-Wettrennen verlieren, nur weil man sich an Regeln hält? Wir nehmen diese Situation unter die Lupe und beleuchten, wie die großen Tech-Konzerne und KI-Vorreiter:innen agieren – und was das für Content-Anbieter:innen, Creators und uns alle bedeutet. Gibt es Wege, diese vermeintliche Krise zu meistern, ohne Gesetze und bewährte Praktiken zu beugen oder gar zu brechen? Hört rein und teilt sehr gerne eure Gedanken und Feedback mit uns!
Links & Quellen:
· Consent in Crisis: The Rapid Decline of the AI Data Commons (MIT Studie)· 2024 AI Index Report (Stanford University)· Your Personal Information Is Probably Being Used to Train Generative AI Models (Scientific American)· For AI firms, anything "public" is fair game (Axios)· For Data-Guzzling AI Companies, the Internet Is Too Small (Wall Street Journal)· Adobe Is Buying Videos for $3 Per Minute to Build AI Model (Bloomberg)· How Tech Giants Cut Corners to Harvest Data for A.I. (New York Times)· Video: Interview Wall Street Journal mit OpenAI CTO Mira Murati (Wall Street Journal)· What to Know About Tech Companies Using A.I. to Teach Their Own A.I. (New York Times)· The Data That Powers A.I. Is Disappearing Fast (New York Times)· Is there enough text to feed the AI beast? (Semafor)· KI-Training vs. Datenschutz „Meta sagt, euer Grundrecht ist nicht so wichtig“ (Deutschlandfunk)· The Backlash Against AI Scraping Is Real and Measurable (404 Media)· Keine Trainings-Daten mehr: Schon 2026 gehen der Künstlichen Intelligenz die Daten aus (SRF) · OpenAI Pleads That It Can’t Make Money Without Using Copyrighted Materials for Free (Futurism) · Why Perplexity’s Cynical Theft Represents Everything That Could Go Wrong With AI (Forbes) · Perplexity Is a Bullshit Machine (Wired) · Most Top News Sites Block AI Bots. Right-Wing Media Welcomes Them (Wired)· OpenAI transcribed over a million hours of YouTube videos to train GPT-4 (The Verge) · How to Fix “AI’s Original Sin” (Tim O’Reilly) · The ‘Enshittification’ of TikTok (Wired)
· POV: How generative AI is changing surveillance capitalism (Fast Company) · Warum ChatGPT so schlecht rechnet (FAZ) · AI Act zum Nachlesen · DSGVO Grundsätze für die Verarbeitung personenbezogener Daten · Adding More Data Isn’t the Only Way to Improve AI (Harvard Business Review) · OpenAI Hit With New Lawsuit Over ChatGPT Training Data (Forbes) · Researchers warn we could run out of data to train AI by 2026 (The Conversation)
Über die Hosts:
Lelia Hanslik ist Mathematikerin, Wirtschaftsinformatikerin, Schnittstellenmensch und Feministin. Sie interessiert sich für die Auswirkungen von Softwaresystemen auf unser Zusammenleben und dafür, wie wir diese Auswirkungen aktiv und verantwortungsbewusst mitgestalten können. Linkedin| Lelia Hanslik
André Cramer ist Technologie- und Informations-Schnittstellenmensch. Er ist seit über 20 Jahren in unterschiedlichsten Rollen und Ländern in der Technologiebranche tätig. Sein Blick hat sich vom Tech-Fanboi zum kritischen Hinterfrager gewandelt. Warum? Er ist überzeugt, dass die Vorteile von Technologie und Digitalisierung allen Menschen zugutekommen sollten. Und dass dafür deren Gestaltung und Verantwortung in vielfältigere Hände gelegt werden sollte. André möchte dazu beitragen, dass mehr Menschen mehr über unsere vielversprechenden digitalen Zukunftsoptionen erfahren. So dass wir eine bessere, eine ethisch fundierte digitale Zukunft für uns alle bauen können. LinkedIn | André Cramer
Kontakt:
[email protected] | Insta CodeundKonsequenz