Kyutai (Xavier Niel) lance Moshi, son propre assistant vocal plus rapide que ChatGPT
Le laboratoire d’intelligence cofondé par Iliad vient de dévoiler son premier modèle d’intelligence artificielle doté de capacités vocales.
En 6 mois, une équipe de 8 chercheurs a réussi à développer un prototype expérimental pour Moshi, « la toute première IA capable de parler accessible à tous »Cet assistant vocal est équipé d’un modèle d’intelligence artificielle doté de capacités vocales sans précédent.
Moshi ne convertit pas une requête vocale en texte pour y répondre, comme le font d’autres assistants vocaux. Le travail de Kyutai vise à faire en sorte que le modèle reconnaisse un son et prédise le suivant afin d’avoir une conversation naturelle. Le temps de latence est annoncé à 160 ms, un record dans cette industrie, plus rapide que ChatGPT-4o. Le modèle peut également reconnaître les émotions et en imiter 70. Ce nouveau type de technologie permet pour la première fois de dialoguer de manière fluide, naturelle et expressive avec une IA.
«Plus largement, Moshi a le potentiel de révolutionner l’usage de la parole dans le monde numérique. Ses capacités de synthèse vocale sont exceptionnelles en termes d’émotion et d’interaction entre plusieurs voix. » explique Iliad. Le projet avait été teasé par Xavier Niel en avril dernier, sans dévoiler aucun détail.
La démo interactive de l’IA sera également disponible sur le site Web de Kyutai en fin de journée ; elle peut donc être testée librement en ligne dès aujourd’hui, ce qui constitue une première mondiale pour une IA génératrice de voix.
Cet article a été repris sur le site Univers FreeBox