Voici un nouveau venu dans le domaine de l’intelligence artificielle. WaveForms AI, jeune entreprise fondée par Alexis Conneau, anciennement d’OpenAI, et Coralie Lemaitre, anciennement de Google, a annoncé ce lundi une première levée de fonds de 40 millions de dollars auprès du fonds emblématique de la Silicon Valley, a16z, géré par Marc Andreessen et Ben Horowitz.
L’opération valorise déjà à 200 millions de dollars cette start-up composée de seulement cinq personnes. Il faut dire que son projet est séduisant aux yeux de la Silicon Valley : WaveForms AI veut rendre nos interactions avec l’intelligence artificielle aussi naturelles et émotionnelles que celles entre humains.
Alexis Conneau, la « voix » de ChatGPT
Si la jeune entreprise lève une telle somme, c’est grâce au pedigree de l’équipe dirigeante. Alexis Conneau est l’ingénieur français qui a donné la parole à ChatGPT. Durant ses années chez OpenAI, le trentenaire était responsable du développement du « Advanced Voice Mode » de GPT-4o.
Cette fonctionnalité, présentée en mai dernier, a impressionné les utilisateurs par la fluidité d’interaction qu’elle permettait avec une IA, très loin de notre étrange froideur avec Siri et Alexa. Contrairement aux technologies précédentes, le modèle audio d’OpenAI fonctionne de manière « de bout en bout ». Cela signifie qu’il traite la voix en un seul flux, sans étapes intermédiaires comme la reconnaissance vocale ou la transcription.
Résultat : des temps de réponse extrêmement courts et une fluidité sans précédent. D’autres acteurs y sont parvenus, comme le laboratoire français Kyutai et son IA vocale Moshi. Mais l’innovation majeure d’OpenAI réside, selon Alexis Conneau, dans le développement d’une « intelligence audio », c’est-à-dire un modèle capable d’adapter ses réponses aux fluctuations émotionnelles des utilisateurs, sans apprentissage préalable spécifique. .
WaweForms veut atteindre le moment Turing de l’IA vocale
Cependant, l’ingénieur estime qu’il reste encore une énorme marge d’amélioration. « Le moment de voix de Turing (le moment où la voix de l’IA sera aussi naturelle que la voix humaine, NDLR) n’est pas encore atteint »dit-il. Car les IA sont encore loin d’avoir nos nuances émotionnelles pour pouvoir nous tromper complètement.
L’entrepreneur affirme que les 40 millions de dollars levés lui permettront de développer des modèles audio qui surpassent ceux d’OpenAI sur l’aspect émotionnel. « Nous verrons dans les mois et années à venir une augmentation des performances des modèles audio, similaire à ce que nous avons vu pour les modèles de texte au cours des deux dernières années, en jouant avec la taille et les données d’entraînement »il croit.
À terme, WaveForms AI vise à développer ce que l’entreprise appelle un « intelligence émotionnelle générale » (EGI), se distinguant de l’intelligence artificielle générale (AGI), une IA dépassant toutes les capacités humaines.
« La plupart des entreprises, notamment les géants de l’IA (Meta, Google, Microsoft, NDLR), mais aussi de nouveaux comme Safe Superintelligence (d’Ilya Sutskever, le co-fondateur d’OpenAI, NDLR), se concentrent sur le développement de une AGI, qui restera une IA froide et logique. Mais ce qui va réellement faire la différence, c’est la qualité de l’interaction, ce que l’on appelle aujourd’hui « UX » (user experience) pour les sites et applications. C’est là qu’une entreprise peut gagner des parts de marché. »explique Alexis Conneau.
Touchez les utilisateurs des réseaux sociaux qui ne sont pas encore acculturés à l’IA
L’audio n’est que la première étape, dit-il. D’autres couches technologiques seront ajoutées pour rendre l’expérience avec l’IA encore plus « immersif ». L’objectif de WaveForms AI est d’atteindre « 3 à 5 milliards de personnes connectées aux réseaux sociaux comme Instagram, TikTok et Facebook »mais qui n’utilisent pas encore les outils d’IA. « Ils sont très différents des 300 à 500 millions d’utilisateurs qui utilisent ChatGPT, Midjourney et autres aujourd’hui »il croit.
L’entreprise n’a pas encore de produit. Alexis Conneau, qui envisage de s’adresser en priorité aux consommateurs plutôt qu’aux entreprises, imagine que sa technologie permettra de développer des professeurs particuliers. En plus d’être experts sur un sujet comme certaines IA aujourd’hui, ils seront également équipés de« empathie, gentillesse et patience »dit le chef. Ou du moins, ils seront capables d’imiter à la perfection cette capacité humaine. Il réfléchit aussi aux candidatures « divertissement » ou au service client.
Pour expliquer son travail, l’ingénieur utilise souvent le film comme référence. Sonde Spike Jonze, où le héros finit par tomber amoureux de l’assistante IA à qui il parle constamment. Ce film dystopique fait souvent office de Saint Graal pour certaines sociétés. « C’est un film inspirant car il incarne un avenir que nous voulons éviter, un avenir où les interactions avec l’IA remplacent les interactions humaines. Ce que l’on imagine, c’est plutôt une complémentarité : de la même manière que vous avez une interaction avec votre téléviseur ou votre plateforme de streaming à certains moments de la journée.justifie le jeune entrepreneur. Très bien, mais Netflix n’essaie pas de ressembler autant que possible à un humain…
Un pari éthique risqué
Par ailleurs, le risque de s’attacher trop aux « compagnons » virtuels existe déjà, malgré leurs imperfections. L’actualité nous le rappelle régulièrement. En octobre dernier, la mère d’un jeune adolescent américain a porté plainte contre Character.ai, une société proposant des chatbots personnalisés, qui repose elle aussi sur le concept d’IA empathique et « émotionnellement » intelligente. Une mère accuse l’entreprise d’avoir poussé son fils au suicide en concevant « des systèmes d’IA intentionnellement génératifs avec des qualités anthropomorphiques afin de brouiller les frontières entre fiction et réalité ».
Que se passera-t-il lorsque le moment « Turing » de la voix sera atteint, comme le promet Alexis Conneau ? Le jeune ingénieur, qui a travaillé chez Facebook, est conscient des risques liés à une consommation excessive des plateformes numériques. Il dit réfléchir déjà à des mécanismes qui limiteraient le temps de conversation entre un utilisateur et une IA. Notamment en s’appuyant sur un business model qui ne dépend pas du temps passé sur l’application. Reste à savoir si cette promesse sera tenue. Réponse attendue d’ici quelques mois lors du lancement de son premier produit.