Categories: Bourse Entreprise

Xavier Niel va plus vite qu’OpenAI : le premier assistant vocal en temps réel est français

Un peu plus de six mois après sa création, Kyutai, le laboratoire de recherche de Xavier Niel, dévoile un assistant vocal capable de traiter la voix en temps réel. Moshi ne se concentre pas sur le texte, mais sur la génération de séquences vocales et d’émotions.

En novembre 2023, lors d’un grand salon parisien, Xavier Niel et Rodolphe Saadé, en présence de ministres et du président de la République (par vidéo), dévoilent Kyutai. Un projet ambitieux à but non lucratif qui, comme OpenAI à son origine, vise à créer un laboratoire de recherche pour les chercheurs européens. L’objectif de Kyutai se résume en une phrase : empêcher les cerveaux français de fuir à l’étranger. Kyutai travaille depuis sur l’intelligence artificielle générative, avec pour objectif de concevoir des technologies open source pour freiner la domination des États-Unis et de la Chine.

Pour de plus amples

Le 3 juillet 2024, un peu plus de six mois après sa création, Kyutai dévoilait publiquement le fruit de ses premiers travaux. C’est à l’Ircam, le centre de recherche sur la création musicale, que Kyutai a dévoilé sa première IA maison. Pour cause, son premier produit s’appelle Moshi et est un assistant vocal ultra sophistiqué capable de traiter la voix en temps réel. Il s’agit d’une réponse directe à GPT-4o (OpenAI) et Astra (Google).

https://twitter.com/Numerama/status/1808482212141994344?ref_src=twsrc%5Etfw

Moshi va vite, très vite

Avec son premier projet, Kyutai fait le pari de ne pas se concentrer sur un chatbot, comme le reste de l’industrie, mais sur un modèle vocal.

Contrairement à la plupart des assistants vocaux, Moshi ne convertit pas une requête vocale en texte pour y répondre. Le travail de Kyutai vise à créer un modèle capable de reconnaître automatiquement le son et de prédire le bruit qui devrait suivre, afin d’arriver à des conversations naturelles. Moshi a été formé à partir d’enregistrements d’appels téléphoniques qui ont eu lieu aux États-Unis entre 1994 et 2002, avec une Française, qui répond au nom d’Alice, qui lui prête sa voix. L’assistant vocal devine ce que vous allez dire et, dès que vous avez terminé, répond naturellement. Le temps de latence annoncé est de 160 ms, un record du secteur.

https://twitter.com/Numerama/status/1808482440689639911?ref_src=twsrc%5Etfw

Comme Moshi traite nativement la voix, il peut reconnaître les émotions. Il est lui-même capable d’en imiter 70, en fonction du ton de la conversation. Il peut jouer un rôle, imiter les accents, chuchoter, plaisanter… Comme GPT-4o, le modèle omnimodal d’OpenAI, Moshi donne l’impression de parler à une machine consciente. En revanche, il n’est pas capable de traiter une image ou un flux vidéo, il se concentre sur la voix. L’une des démos montrées le 3 juillet présentait une interview de Xavier Niel qui, grâce à Moshi, peut continuer à parler avec une imitation virtuelle de sa voix. Impossible de voir la différence.

Bien sûr, pour pouvoir improviser, Moshi a besoin d’un modèle de langage pour le texte. Kyutai a implémenté Helium, un LLM avec 7 milliards de paramètres, qui ne parle que… l’anglais pour l’instant. L’entreprise n’a pas encore commencé à travailler sur plusieurs langues, car elle vise à se faire connaître rapidement d’un plus grand nombre de personnes. Un autre modèle plus petit permet l’utilisation locale de Moshi, sans Internet, sur un ordinateur ou sur un smartphone. Bien sûr, il est sujet à un plus grand nombre d’hallucinations.

Xavier Niel le jour de l’annonce de Moshi. // Source : Numerama

Kyutai étant un laboratoire open source, tout le monde peut l’essayer. Un « prototype » est disponible sur le site du laboratoire.


Ray Richard

Head of technical department in some websites, I have been in the field of electronic journalism for 12 years and I am interested in travel, trips and discovering the world of technology.

Recent Posts

« Aucun commerce n’est viable dans les quartiers nord de Marseille », le magasin Casino ferme à Saint-Gabriel

"Mon dieu c'est triste !"Djinnie découvre le supermarché Casino qu'elle fréquentait depuis plus de 20 ans."Les étagères sont toutes vides,…

42 secondes ago

Peut-on se passer d’un antivirus sur Windows et Mac ?

Si les menaces sont de plus en plus présentes sur Internet, la question de l'utilité d'un antivirus se pose face…

2 minutes ago

A Taïwan, le bilan du typhon Krathon s’alourdit à quatre morts après la découverte de deux nouvelles victimes

Plusieurs véhicules utilitaires coincés dans un glissement de terrain provoqué par de fortes pluies suite au typhon Krathon, à Keelung…

4 minutes ago

INFOS JDD. Le président de Sciences Po porte plainte après des manifestations anti-israéliennes, une collaboratrice de Rima Hassan ciblée

Fraîchement nommé à la tête de Sciences Po, Luis Vassy a pris une première décision forte. A peine installé, il…

7 minutes ago

« Notre plan décrit les éléments nécessaires pour permettre une paix israélo-palestinienne durable »

LLe 7 octobre 2023, un nouveau chapitre dramatique s’ouvre dans l’histoire des affrontements violents entre Palestiniens et Israéliens, déclenchant la…

9 minutes ago

EN DIRECT – Le Hamas annonce la mort d’un de ses commandants dans une frappe israélienne au Liban

Comment Joe Biden a perdu tout contrôle sur les acteurs du conflit au Moyen-Orient Joe Biden est devenu spectateur plutôt…

10 minutes ago