Mistral AI et Nvidia dévoilent leur premier modèle commun, Mistral NeMo 12B
S’associer sous une même bannière est une stratégie comme une autre pour s’imposer sur un marché. C’est la voie que semblent emprunter Mistral AI et Nvidia après avoir publié un grand modèle de langage développé conjointement. Baptisé Mistral NeMo 12B, ce LLM « offre des performances élevées pour diverses applications »ont indiqué les deux sociétés dans un communiqué de presse.
La mutualisation du travail de la start-up française en matière de données d’entraînement couplée à l’écosystème matériel et logiciel optimisé de Nvidia semble en tout cas prometteuse. « Nous avons la chance de collaborer avec l’équipe Nvidia et de bénéficier de leur matériel et de leurs logiciels de classe mondiale. »« Les développeurs peuvent facilement personnaliser et déployer le modèle pour des applications d’entreprise, notamment des chatbots, des tâches multilingues, le développement de logiciels et la synthèse de textes », a déclaré Guillaume Lample, cofondateur et scientifique en chef de Mistral AI.
L’ensemble des outils Nvidia à disposition des équipes Mistral pour développer ce LLM
En détail, Mistral NeMo a été formé sur la plateforme DGX Cloud AI du concepteur de puces, avant d’être transmis via TensorRT-LLM, la bibliothèque open source conçue pour accélérer le développement LLM. La plateforme de développement NeMo a également été exploitée pour optimiser l’ensemble du processus de création du modèle d’IA génératif.
Les équipes se sont notamment appuyées sur Megatron-LM qui fait partie de NeMo, avec 3 072 GPU H100 80 Go Tensor Core sur DGX Cloud, composé de l’architecture IA de Nvidia, incluant le calcul accéléré, la mise en réseau et les logiciels pour augmenter l’efficacité de la formation.
D’excellentes performances vantées par Nvidia
« Excellent dans les conversations à plusieurs tours, les mathématiques, le raisonnement de bon sens, la connaissance du monde et le développement de logiciels, ce modèle d’IA de niveau entreprise offre des performances précises et fiables dans une variété de tâches. »Nvidia souligne que le modèle à 12 milliards de paramètres dispose également d’une fenêtre de contexte de 128 000 jetons, ce qui est assez conséquent. N’oubliez pas que plus la fenêtre de contexte est grande, plus elle peut gérer de longs documents et maintenir des conversations en plusieurs étapes.
Publié sous la licence Apache 2.0 comme de nombreux modèles du marché, dont le modèle ouvert Mixtral 8x22B de Mistral AI, le modèle Mistral NeMo utilise le format de données FP8 pour l’inférence, « ce qui réduit la taille de la mémoire et accélère le déploiement sans aucune dégradation de la précision », En bref : le LLM apprend mieux les tâches et gère plus efficacement divers scénarios, ce qui le rend idéal pour les cas d’utilisation en entreprise.
Un modèle disponible en microservice
Mistral NeMo est livré sous forme de microservice d’inférence NIM. Le géant des puces a annoncé lors de la GTC 2024 le lancement de ces microservices conteneurisés qui regroupent un modèle d’IA, un runtime et un moteur d’inférence optimisé pour le modèle dans un seul package prêt à l’emploi (sous le capot, on retrouve NeMo Retriever, Triton Inference Server et TensorRTTM-LLM).
Grâce à cette technique, le modèle Mistral NeMo peut être déployé n’importe où en quelques minutes, plutôt qu’en quelques jours. La firme américaine précise également que le modèle disponible sous forme NIM est conçu pour s’adapter à la mémoire d’un seul GPU L40S, GeForce RTX 4090 ou RTX 4500.
La startup publie deux modèles de recherche
Parallèlement à cette annonce, notons que la start-up française a publié deux modèles de recherche Math?tral et Codestral Mamba, tous deux disponibles sous licence Apache 2.0. Le premier dispose de 7 milliards de paramètres et est spécifiquement conçu pour le raisonnement mathématique et la découverte scientifique. Le modèle s’appuie sur une fenêtre contextuelle de 32k. Sur plusieurs tests réalisés, Mathstral 7B obtient des scores supérieurs à Llama 3 8B, DeepSeek Math 7B, QWen 2 7B ou encore Gemma 2 9B.
Quant à Codestral Mamba, il repose sur une architecture Mamba-2, en alternative à Transformer et est spécialisé dans la génération de code à partir de ses 7 milliards de paramètres. Il s’agit d’une version allégée qui succède à Codestral 22B lancé en mai dernier. Preuve que les modèles dits compacts ou « à poids ouvert » ont toujours la cote.
Choisi pour toi