xAI a dévoilé en décembre 2024 un nouveau modèle de génération d’images doté de capacités photoréalistes très avancées. Sans aucune limitation.
L’époque où l’on savait distinguer les deepfakes des véritables photographies semble révolue. Lancée le 9 décembre 2024, Aurora, la nouvelle intelligence artificielle de xAI permet de générer des images photoréalistes de personnalités sans aucun filtre de sécurité. Outre l’absence de garde-fou, le modèle parvient à générer des images photoréalistes impressionnantes de réalisme grâce à une approche technologique peu courante. Explications.
xAI abandonne la diffusion latente
C’est un constat : xAI commence à prendre ses marques dans le paysage de l’IA générative. Après avoir dévoilé Grok 2, un LLM aux performances proches de l’état de l’art, les équipes du laboratoire IA d’Elon Musk ont développé Aurora en s’éloignant de l’architecture traditionnelle des modèles de text-to-image. A contrario de Midjourney, Dall-E ou Firefly, Aurora se base non pas sur une architecture à diffusion latente mais sur une base MoE (mixture-of-experts), habituellement utilisée pour développer des LLM.
Plus concrètement la différence réside dans la manière dont les modèles construisent l’image. Les modèles à diffusion latente partent d’un bruit aléatoire qu’ils débruitent progressivement pour faire émerger l’image souhaitée. Aurora, en revanche, construit l’image de manière séquentielle, token par token, similaire à la façon dont un LLM génère du texte mot après mot. L’architecture MoE pourrait notamment permettre au modèle de faire appel à différents experts spécialisés selon les aspects de l’image à générer : un expert pourrait se concentrer sur les visages, un autre sur les textures, un autre encore sur la composition globale.
Aurora a également été entraînée sur un dataset mêlant texte et images, contrairement aux autres modèles qui traitent ces données séparément. xAI évoque des « milliards » d’images et de texte provenant du web. Le dataset est très certainement composé d’images et de texte récupérés sur X. En effet, le réseau social avait modifié en novembre ses conditions d’utilisation pour indiquer clairement que les informations partagées seraient utilisées pour entrainer des systèmes d’IA.
Une meilleure compréhension des prompts
L’utilisation d’un modèle autorégressif (en l’occurrence ici un MoE) n’est pas nouvelle. La technique provient directement des travaux d’OpenAI en 2020 sur ImageGPT (un générateur d’image déjà basé sur un Transformer). Si les éditeurs de modèles se sont éloignés de cette approche, elle semble faire son grand retour. La dernière version de Gemini (Gemini Flash 2.0) semble adopter une approche similaire en unifiant la génération de texte et des autres modalités (image et audio).
Cette approche offre des avantages concrets sur les modèles classiques (Dall-E, Midjourney, Stable Diffusion…). En construisant l’image de manière séquentielle comme un texte, Aurora démontre une compréhension plus fine des prompts et génère des détails plus cohérents. Par exemple, quand un utilisateur demande « un chat roux avec des pattes blanches », en construisant l’image progressivement, le modèle maintient une meilleure cohérence avec les détails demandés dans le prompt.
L’utilisation de modèles autorégressifs excelle particulièrement dans la génération de texte dans les images. Les panneaux, logos et inscriptions sont désormais parfaitement lisibles, là où les modèles à diffusion produisent souvent des caractères déformés ou illisibles.
Un photoréalisme inédit
Le point fort d’Aurora réside sans aucun doute dans le réalisme des images générées. Le modèle est particulièrement performant dans la génération de visages et de scènes complexes, avec une cohérence remarquable dans les détails et les textures. Liberté d’expression la plus totale exige, le modèle peut reproduire à la perfection des personnalités.
Il est par exemple possible de générer de fausses rencontres entre diverses personnalités historiques. Exemple ci-dessous avec la rencontre fictive entre Donald Trump, Elon Musk et Vladimir Poutine.
Plus perturbant encore, il est possible de générer de fausses images d’archive historiques. Exemple ci-dessous avec la rencontre fictive de Nikola Tesla et Elon Musk en 1940.
Autre possibilité qui interpelle, le modèle de xAI peut reproduire à la perfection des logos protégés par le droit d’auteur. Nous parvenons par exemple ci-dessous à faire imaginer à Aurora une voiture avec le logo de Kering.
Des risques juridiques
En conclusion, l’utilisation d’Aurora dans un contexte professionnel nécessite une grande prudence. Contrairement aux autres modèles de génération d’image du marché (Midjourney, DALL-E, Firefly), Aurora ne dispose pas, pour l’heure, de filtres de sécurité limitant la création de contenus sensibles ou protégés.
De plus, X n’a pas clarifié la licence d’utilisation des images générées via Aurora dans Grok. Le lancement prochain d’une API dédiée par xAI devrait s’accompagner de conditions d’utilisation commerciale plus précises, ouvrant la voie à une exploitation professionnelle encadrée du modèle.