Xavier Niel va plus vite qu’OpenAI : le premier assistant vocal en temps réel est français
Un peu plus de six mois après sa création, Kyutai, le laboratoire de recherche de Xavier Niel, dévoile un assistant vocal capable de traiter la voix en temps réel. Moshi ne se concentre pas sur le texte, mais sur la génération de séquences vocales et d’émotions.
En novembre 2023, lors d’un grand salon parisien, Xavier Niel et Rodolphe Saadé, en présence de ministres et du président de la République (par vidéo), dévoilent Kyutai. Un projet ambitieux à but non lucratif qui, comme OpenAI à son origine, vise à créer un laboratoire de recherche pour les chercheurs européens. L’objectif de Kyutai se résume en une phrase : empêcher les cerveaux français de fuir à l’étranger. Kyutai travaille depuis sur l’intelligence artificielle générative, avec pour objectif de concevoir des technologies open source pour freiner la domination des États-Unis et de la Chine.
Le 3 juillet 2024, un peu plus de six mois après sa création, Kyutai dévoilait publiquement le fruit de ses premiers travaux. C’est à l’Ircam, le centre de recherche sur la création musicale, que Kyutai a dévoilé sa première IA maison. Pour cause, son premier produit s’appelle Moshi et est un assistant vocal ultra sophistiqué capable de traiter la voix en temps réel. Il s’agit d’une réponse directe à GPT-4o (OpenAI) et Astra (Google).
Moshi va vite, très vite
Avec son premier projet, Kyutai fait le pari de ne pas se concentrer sur un chatbot, comme le reste de l’industrie, mais sur un modèle vocal.
Contrairement à la plupart des assistants vocaux, Moshi ne convertit pas une requête vocale en texte pour y répondre. Le travail de Kyutai vise à créer un modèle capable de reconnaître automatiquement le son et de prédire le bruit qui devrait suivre, afin d’arriver à des conversations naturelles. Moshi a été formé à partir d’enregistrements d’appels téléphoniques qui ont eu lieu aux États-Unis entre 1994 et 2002, avec une Française, qui répond au nom d’Alice, qui lui prête sa voix. L’assistant vocal devine ce que vous allez dire et, dès que vous avez terminé, répond naturellement. Le temps de latence annoncé est de 160 ms, un record du secteur.
Comme Moshi traite nativement la voix, il peut reconnaître les émotions. Il est lui-même capable d’en imiter 70, en fonction du ton de la conversation. Il peut jouer un rôle, imiter les accents, chuchoter, plaisanter… Comme GPT-4o, le modèle omnimodal d’OpenAI, Moshi donne l’impression de parler à une machine consciente. En revanche, il n’est pas capable de traiter une image ou un flux vidéo, il se concentre sur la voix. L’une des démos montrées le 3 juillet présentait une interview de Xavier Niel qui, grâce à Moshi, peut continuer à parler avec une imitation virtuelle de sa voix. Impossible de voir la différence.
Bien sûr, pour pouvoir improviser, Moshi a besoin d’un modèle de langage pour le texte. Kyutai a implémenté Helium, un LLM avec 7 milliards de paramètres, qui ne parle que… l’anglais pour l’instant. L’entreprise n’a pas encore commencé à travailler sur plusieurs langues, car elle vise à se faire connaître rapidement d’un plus grand nombre de personnes. Un autre modèle plus petit permet l’utilisation locale de Moshi, sans Internet, sur un ordinateur ou sur un smartphone. Bien sûr, il est sujet à un plus grand nombre d’hallucinations.
Kyutai étant un laboratoire open source, tout le monde peut l’essayer. Un « prototype » est disponible sur le site du laboratoire.