Des sous-titres de milliers de vidéos YouTube utilisés sans autorisation pour entraîner l’IA

De grandes entreprises de la Silicon Valley ont utilisé des vidéos YouTube à l’insu de leurs créateurs pour entraîner leurs outils d’intelligence artificielle (IA), en violation des conditions d’utilisation de la plateforme. Concrètement, ces entreprises ont utilisé les sous-titres des vidéos, selon les conclusions d’une enquête publiée mardi 16 juillet dans Preuve d’actualitéun média américain à but non lucratif financé par plusieurs fondations.

Parmi les entreprises pointées du doigt figurent trois géants aux profits colossaux : le spécialiste de l’électronique Apple, l’expert des logiciels de relation client Salesforce et le leader des cartes graphiques Nvidia, dont les puces sont largement utilisées pour entraîner l’IA. On compte aussi une grosse start-up : Anthropic, l’éditeur de l’IA conversationnelle Claude, qui a reçu quatre milliards de financements d’Amazon en 2024.

Preuve d’actualité j’ai recherché les articles de recherche publiés par ces différentes sociétés : ils indiquent clairement que leurs chercheurs ont utilisé un ensemble de 173 536 vidéos appelé YouTube Subtitles. pour entraîner leur IA. Ces vidéos ont été glanées sur plus de 48 000 chaînes YouTube différentes et, si certaines, comme celle du YouTubeur PewDiePie, comptaient près de 400 éléments de contenu détournés, la plupart comportaient en moyenne les sous-titres d’un peu moins de quatre vidéos.

Les médias et les YouTubeurs

Des journalistes de Preuve d’actualité ont pu télécharger cet ensemble de vidéos. Ils ont construit un moteur de recherche qui permet à chacun de naviguer et d’identifier les chaînes originales. Il contient principalement des sources en anglais : des chaînes éducatives telles que celles du MIT, de Harvard et de Khan Academy, des médias tels que le le journal Wall StreetDes chaînes de télévision comme CBS et la BBC, ou même des stars de YouTube comme MrBeast. Preuve d’actualitéIl existe également des vidéos de théoriciens du complot qui affirment que la Terre est plate. Il existe également quelques vidéos en français : parmi les quelques médias français concernés, quelques vidéos de Monde et l’Agence France-Presse, et parmi les YouTubeurs français, Squeezie, Norman et Cyprien.

Selon Preuve d’actualitéCes sous-titres ont été collectés par EleutherAI, un groupe de recherche à but non lucratif, qui n’a pas répondu aux questions des médias américains. Sur son site Internet, EleutherAI indique qu’il travaille à rendre les technologies avancées d’IA accessibles aux petits acteurs pour éviter que le secteur ne soit « dominé par une poignée de grandes entreprises ».

Anthropic et Salesforce ont confirmé que Preuve d’actualité en utilisant un ensemble de données appelé The Pile, qui contient des sous-titres de YouTube Subtitles. Apple et NVidia n’ont pas répondu aux questions des journalistes. Quant à Google, propriétaire de YouTube, un porte-parole a simplement déclaré que son entreprise avait pris des mesures pour  » pour prévenir  » ce type de pratique, mais sans répondre au cas spécifique relevé par Preuve d’actualitéEn avril 2024, une enquête menée par le New York Times avait montré que Google et OpenAI avaient également utilisé des sous-titres de vidéos YouTube pour entraîner leur IA.

Le monde

Réutiliser ce contenu
Jewel Beaujolie

I am a fashion designer in the past and I currently write in the fields of fashion, cosmetics, body care and women in general. I am interested in family matters and everything related to maternal, child and family health.

Recent Posts

Saint-Etienne – Lille (1-0) I Davitashvili, valeurs et 12e homme : comment Sainté s’est relevé – Eurosport FR

Saint-Etienne - Lille (1-0) I Davitashvili, valeurs et 12e homme : comment Sainté s'est remis sur piedEurosport FR"J'ai honte", le…

58 secondes ago

Demain nous appartient du vendredi 13 septembre 2024 – Épisode 1770 – TF1+

Demain nous appartient du vendredi 13 septembre 2024 - Épisode 1770TF1+Demain nous appartient en avance : Benoît et Sacha prennent…

2 minutes ago

Vol de données sur l’assurance retraite, 370 000 personnes concernées

L'assureur français s'est fait voler les données de 370.000 personnes via un portail internet destiné aux organismes de protection sociale…

3 minutes ago

Dax et Biarritz gardent la tête, Grenoble s’enfonce à Aurillac

Vainqueurs de leur troisième match de la saison, Dax et Biarritz ont pris leurs distances avec Grenoble, balayé à Aurillac.…

6 minutes ago

ne les jetez pas !

Afficher Cacher le résuméVous avez peut-être un vieux téléphone portable qui prend la poussière dans un tiroir ou au fond…

7 minutes ago

Le pape François affirme que le Vatican était au courant des agressions sexuelles d’un prêtre

TIZIANA FABI / AFP Le pape François participe à une rencontre interreligieuse avec des jeunes au Catholic Junior College de…

10 minutes ago