Pour son patron, le ChatGPT français est une « réussite » !
Le 3 juillet dernier, Kyutai a dévoilé Moshi, un modèle d’intelligence artificielle doté de capacités vocales inédites. Le prototype du chatbot a fait sa première apparition auprès de la presse, mais il est également disponible pour tous à cette adresse. La particularité de ce prototype est qu’il peut communiquer oralement de la manière la plus naturelle et expressive possible, tout en restant attentif à son interlocuteur.
Le modèle multimodal de Moshi peut également être installé localement et exécuté sans connexion Internet. La Fondation Kyutai met ce modèle à disposition en open source, afin de contribuer à la recherche et au développement de l’écosystème de l’IA. Nous avons voulu en savoir plus sur Moshi et le laboratoire avec son PDG, Patrick Perez.
Moshi est un assistant vocal dont les capacités dépassent celles de GPT-4o dans certains domaines clés : il parle et écoute simultanément tout en continuant à générer un « flux de pensées », ce qui est parfois déconcertant à l’usage. Moshi est-il ce qui se rapproche le plus d’une « expérience » conversationnelle humaine ?
Moshi.chat n’est pas un assistant vocal mais un prototype expérimental construit sur Moshi, un modèle de synthèse vocale multimodale à usage général que nous avons développé de toutes pièces. Ce prototype démontre en effet des capacités d’interaction orale sans précédent en termes de naturel et de fluidité.
Quelles sont les utilisations possibles de Moshi ? Dans quels domaines souhaiteriez-vous voir cette technologie trouver sa place ?
Les applications potentielles de ce modèle multimodal sont nombreuses :
1/ Dialogue oral naturel avec une IA (assistant ou compagnon) pour l’inclusion et l’accessibilité, l’éducation, le coaching, le jeu, le service client, la recherche d’informations, la robotique interactive, etc.
2/ Synthèse vocale expressive et multi-locuteurs pour l’accès audio à du contenu écrit, la création d’artefacts culturels et artistiques, le jeu, etc.
3/ traduction audio simultanée pour la communication et l’accessibilité.
Il a fallu six mois à une équipe de huit personnes pour développer Moshi, ce qui ne semble pas beaucoup, tout bien considéré. Cela signifie-t-il qu’il est relativement facile de concevoir un assistant comme Moshi aujourd’hui ?
C’est en effet une belle prouesse ! Cela demande des compétences très spécifiques et complémentaires, en plus de travailler de manière extrêmement intense et concentrée, et de disposer de ressources de calcul suffisantes. Pour le dernier point, nous louons des machines très puissantes à Scaleway, grâce aux dons importants de nos trois fondateurs.
Moshi comprend de nombreux accents, mais l’assistant ne parle qu’anglais pour le moment. Est-il prévu d’ajouter d’autres langues à l’avenir et, en guise de question annexe, est-il difficile d’enseigner d’autres langues à un LLM ?
Nous envisageons d’inclure d’autres langues, à commencer par le français et l’espagnol. Ceci étant dit, l’idée est de partager librement nos modèles et les codes permettant de les réentraîner en tout ou partie. La prise en compte d’autres langues, même si elle n’est pas triviale à réaliser, peut donc être réalisée par d’autres acteurs de l’écosystème qui disposent des ressources nécessaires (données, savoir-faire, machines) et des cas d’usage adaptés.
Helium, le LLM sur lequel Moshi est basé, possède 7 milliards de paramètres, ce qui peut sembler beaucoup, mais comment se compare-t-il aux autres LLM (nous ne savons pas combien de paramètres pour GPT-4) et, plus important encore, la qualité d’un LLM est-elle limitée au nombre de paramètres ? Et quelles données d’entraînement avez-vous utilisées ?
Il s’agit d’un modèle de taille moyenne. Les « petits » modèles sont plutôt de l’ordre de 2 à 3 milliards, et les « gros » ont des tailles allant de quelques dizaines à plusieurs centaines (voire milliers ?) de milliards de paramètres. La taille n’est pas tout, mais avec les bonnes données (volume et qualité) et les techniques d’apprentissage les plus récentes, une taille plus importante permet généralement d’obtenir de meilleures performances sur un plus large éventail de tâches. Pour le pré-entraînement d’Helium, nous utilisons un mélange assez standard de données web, notamment issues du projet CommonCrawl. De l’ordre d’un millier de milliards (un trillion) de mots écrits.
Le processus d’apprentissage de Moshi impliquait également 100 000 conversations orales et un moteur de synthèse vocale. Maintenant, j’ai besoin que vous m’expliquiez comment cela fonctionne !
Helium « écrit » ces 100 000 dialogues, et une version antérieure de Moshi, qui permet la synthèse vocale avec des voix données, les transforme en conversations audio.
Y a-t-il quelqu’un derrière la « voix » de Moshi ?
Nous avons travaillé avec un artiste vocal dont les enregistrements ont permis de capturer la voix de l’IA dans les 100 000 conversations mentionnées ci-dessus.
Kyutai a également développé une variante de Moshi destinée à fonctionner en local, sans connexion internet. Il sera possible de l’utiliser sur son ordinateur personnel via le GPU. Deux questions : pourquoi pas avec le NPU qui équipe de plus en plus les PC et les Mac ? Et une version de type « nano » pour les smartphones est-elle possible ?
Nos modèles sont actuellement conçus pour être entraînés et utilisés sur des GPU Nvidia. La démonstration d’une version compressée locale s’est donc naturellement faite sur le même type de puce, mais plus petite. En tant que laboratoire de recherche, nous cherchions surtout à démontrer la faisabilité de versions embarquées de nos modèles. Nous espérons que le partage de ces modèles et des codes associés permettra à d’autres d’aller plus loin dans la portabilité, en fonction de leurs besoins. Oui, on peut imaginer à terme un Moshi plus petit et plus spécialisé tournant sur un mobile.
Lorsque l’on parle d’IA générative, la question de la sécurité finit par se poser assez rapidement. Comment s’assurer que Moshi ne sera pas utilisé à des fins malveillantes ?
Comme pour d’autres IA génératives, une partie du « finetuning » (étape d’apprentissage supervisé qui suit un pré-apprentissage non supervisé à très grande échelle) est dédiée au renforcement de la sécurité en même temps que d’autres capacités. De plus, nous travaillons sur le marquage invisible des contenus générés par nos modèles, un problème de recherche à la fois difficile et important.
Enfin, nous croyons fortement aux vertus de l’open-source en termes de sécurité (entre autres) : davantage d’acteurs peuvent inspecter, évaluer et sécuriser les modèles ainsi partagés. Dans la mesure où l’utilisation malveillante de modèles génératifs de plus en plus puissants (en termes de pilotage et de réalisme) et de plus en plus nombreux est impossible à éviter, vulgariser et informer sans relâche sur ces sujets techniques est crucial pour limiter les dégâts.
Quel avenir pour Moshi ?
Nous poursuivons son développement pour améliorer certaines de ses capacités (pertinence, expressivité, langages)… et nous avons hâte de voir comment l’écosystème l’utilisera et le modifiera une fois que nous aurons partagé des modèles, des codes et des informations techniques (travail en cours).
Kyutai a une position assez singulière en France et en Europe, puisque le laboratoire a été financé par Xavier Niel. Est-ce une sécurité par rapport à d’autres sociétés d’IA qui ont des investisseurs qui recherchent avant tout la rentabilité ?
Egalement financé par Eric Schmidt et Rodolphe Saadé ; tous trois sont donateurs, pas investisseurs (nous sommes une fondation). Donc oui, cela nous assure une grande indépendance dans le choix de nos recherches et dans la constitution de l’équipe, tout en disposant de moyens exceptionnels.
🔴 Pour ne rien manquer de l’actualité de 01net, suivez-nous sur Google News et WhatsApp.