April 08, 2024

OpenAI gebruikte (of: misbruikte?) YouTube om AI-model GPT-4 te trainen

6 minutes

OpenAI, de maker van ChatGPT, heeft miljoenen uren aan video's op YouTube gebruikt om eigen AI-taalmodellen te trainen. Joe van Burik legt in deze Tech Update uit wat er is gebeurt.

OpenAI heeft al eind 2021 (een jaar voor de lancering van ChatGPT, dus) volop YouTube-video's gebruikt om AI-taalmodel GPT-4 te trainen. Dat schrijft The New York Times. Dat deed de start-up die vooral gesteund wordt door Microsoft door hun eigen AI-systeem voor audiotranscriptie te ontwikkelen, Whisper genaamd. Door al die audio van video's op het videoplatform van Google om te zetten in tekst, konden ze het gebruiken.

Maar juridisch gezien is dat schimmig, want mogelijk mag dat niet. Hoewel Google zelf ook AI-taalmodellen trainen met behulp van video's, doet het dat naar eigen zeggen conform overeenkomsten met makers van video's. Al heeft Google daarvoor volgens de New York Times nog de voorwaarden aangepast in 2023.

Google zegt in een reactie tegen The Verge dat het ook daadwerkelijk activiteit van OpenAI op de systemen heeft gezien. OpenAI presenteerde onlangs AI-tool Sora om ook video's mee te generen, daarover zei eerder de CEO van YouTube dat OpenAI mogelijk YouTube zou hebben gebruikt (danwel misbruikt). OpenAI zegt in elk geval tegen The Verge dat ze daar 'unieke datasets' maken om 'AI-modellen te helpen de wereld te gebruiken', met 'vele bronnen inclusief publiek beschikbare data en samenwerkingen voor niet-publieke data'.

Verder in deze Tech Update:

Het voorstel om TikTok gedwongen te laten verkopen aan een Amerikaans bedrijf of anders te verbieden, wordt 'in de komende weken en maanden' verder besproken in de Amerikaanse Senaat
De veelbesproken zonsverduistering boven de Verenigde Staten vanavond is live te volgen via Twitch, waar de gebeurtenis in samenwerking met de NASA wordt gelivestreamd

See omnystudio.com/listener for privacy information.

...more

View all episodes

By BNR Nieuwsradio

33 ratings