Des startups d’intelligence artificielle s’entraînent secrètement avec des photos d’enfants

Ray Richardil y a 2 semaines

2 2 minutes de lecture

Selon une étude de l’ONG Human Right Watch publiée en début de semaine, plus de 170 images et informations personnelles d’enfants au Brésil ont été collectées pour entraîner l’intelligence artificielle.

Photos d’enfants utilisées sans leur consentement au profit de l’intelligence artificielle. C’est le sombre constat dressé par un récent rapport de l’ONG Human Rights Watch, relayé par le média américain Wired. Selon l’enquête de l’ONG, plus de 170 images et informations personnelles d’enfants au Brésil ont été collectées sans leur consentement. Un échantillon, qui représente uniquement « 0,0001% de ce contenu », Alerte de Human Rights Watch. Les chercheurs affirment que ces données et les liens vers les clichés ont été inclus dans LAION-5B. Un ensemble de données qui constituait jusqu’il y a peu une base de formation pour les start-up développant leurs modèles d’intelligence artificielle.

LAION-5B est basé sur Common Crawl, un référentiel de données créé en extrayant des données du Web et mis à disposition des chercheurs. Cette base de données comprendrait plus de 5 milliards d’images et de légendes, rapporte Wired. Il aurait cependant été utilisé à plusieurs reprises pour entraîner des modèles d’IA très populaires. Comme la diffusion stable et l’IA de stabilité. Deux outils qui matérialisent de fausses photos à partir d’une simple demande écrite de leurs utilisateurs.

Images de blogs de mamans

« Leur vie privée est violée à partir du moment où leur photo est extraite et intégrée à ces ensembles de données. » » a déclaré Hye Jung Han, chercheur sur les droits de l’enfant et la technologie à Human Rights Watch, qui a découvert les images. « Ensuite, ces outils d’IA sont entraînés sur ces données et peuvent donc créer des images réalistes d’enfants »précise-t-elle. « La technologie est développée de telle manière que tout enfant qui a une photo ou une vidéo d’eux-mêmes en ligne court désormais un risque, car tout acteur malveillant pourrait prendre cette photo et utiliser ces outils pour la manipuler comme bon lui semble. »

Les images d’enfants trouvées par les chercheurs provenaient le plus souvent de blogs de mamans, de blogs personnels ou de forums liés à la maternité et à la parentalité. Plus inquiétant encore, certaines de ces images étaient des captures d’écran de vidéos YouTube, avec un petit nombre de vues, mises en ligne pour les partager avec leurs proches. « La plupart de ces images n’étaient pas disponibles en ligne grâce à une recherche d’images inversée », souligne Hye Jung Han. En décembre, des chercheurs de l’Université de Stanford ont également découvert que les données d’entraînement à l’IA collectées par LAION-5B contenaient du matériel pédopornographique.

Le porte-parole de LAION, Nate Tyler, a assuré qu’il avait pris des mesures. « LAION-5B a été supprimé, en réponse à un rapport de Stanford qui a trouvé des liens dans l’ensemble de données pointant vers du contenu illégal sur le Web. » Il a ajouté que l’organisation travaille actuellement avec « Fondation de surveillance Internet »le Centre canadien de protection de l’enfance, Stanford et Human Rights Watch pour supprimer toutes les références connues à des contenus illégaux.

Ray Richardil y a 2 semaines

2 2 minutes de lecture