Des sous-titres de milliers de vidéos YouTube utilisés sans autorisation pour entraîner l’IA
De grandes entreprises de la Silicon Valley ont utilisé des vidéos YouTube à l’insu de leurs créateurs pour entraîner leurs outils d’intelligence artificielle (IA), en violation des conditions d’utilisation de la plateforme. Concrètement, ces entreprises ont utilisé les sous-titres des vidéos, selon les conclusions d’une enquête publiée mardi 16 juillet dans Preuve d’actualitéun média américain à but non lucratif financé par plusieurs fondations.
Parmi les entreprises pointées du doigt figurent trois géants aux profits colossaux : le spécialiste de l’électronique Apple, l’expert des logiciels de relation client Salesforce et le leader des cartes graphiques Nvidia, dont les puces sont largement utilisées pour entraîner l’IA. On compte aussi une grosse start-up : Anthropic, l’éditeur de l’IA conversationnelle Claude, qui a reçu quatre milliards de financements d’Amazon en 2024.
Preuve d’actualité j’ai recherché les articles de recherche publiés par ces différentes sociétés : ils indiquent clairement que leurs chercheurs ont utilisé un ensemble de 173 536 vidéos appelé YouTube Subtitles. pour entraîner leur IA. Ces vidéos ont été glanées sur plus de 48 000 chaînes YouTube différentes et, si certaines, comme celle du YouTubeur PewDiePie, comptaient près de 400 éléments de contenu détournés, la plupart comportaient en moyenne les sous-titres d’un peu moins de quatre vidéos.
Les médias et les YouTubeurs
Des journalistes de Preuve d’actualité ont pu télécharger cet ensemble de vidéos. Ils ont construit un moteur de recherche qui permet à chacun de naviguer et d’identifier les chaînes originales. Il contient principalement des sources en anglais : des chaînes éducatives telles que celles du MIT, de Harvard et de Khan Academy, des médias tels que le le journal Wall StreetDes chaînes de télévision comme CBS et la BBC, ou même des stars de YouTube comme MrBeast. Preuve d’actualitéIl existe également des vidéos de théoriciens du complot qui affirment que la Terre est plate. Il existe également quelques vidéos en français : parmi les quelques médias français concernés, quelques vidéos de Monde et l’Agence France-Presse, et parmi les YouTubeurs français, Squeezie, Norman et Cyprien.
Selon Preuve d’actualitéCes sous-titres ont été collectés par EleutherAI, un groupe de recherche à but non lucratif, qui n’a pas répondu aux questions des médias américains. Sur son site Internet, EleutherAI indique qu’il travaille à rendre les technologies avancées d’IA accessibles aux petits acteurs pour éviter que le secteur ne soit « dominé par une poignée de grandes entreprises ».
Anthropic et Salesforce ont confirmé que Preuve d’actualité en utilisant un ensemble de données appelé The Pile, qui contient des sous-titres de YouTube Subtitles. Apple et NVidia n’ont pas répondu aux questions des journalistes. Quant à Google, propriétaire de YouTube, un porte-parole a simplement déclaré que son entreprise avait pris des mesures pour » pour prévenir » ce type de pratique, mais sans répondre au cas spécifique relevé par Preuve d’actualitéEn avril 2024, une enquête menée par le New York Times avait montré que Google et OpenAI avaient également utilisé des sous-titres de vidéos YouTube pour entraîner leur IA.