Meta dévoile Llama-3 - Nous mettons à l'épreuve le nouveau modèle d'IA Open-Source le plus performant

Llama 3, le modèle de langage large le plus avancé de Meta est arrivé tôt et a touché des millions d'appareils à travers les meilleures applications. Nous l'avons testé.

Apr 22, 2024

8 min de lecture

Meta a publié Llama 3, le modèle de langage large open source le plus avancé actuellement disponible. Il s'appuie sur les bases posées par son prédécesseur, Llama 2, et est arrivé comme une surprise alors que des rumeurs suggéraient que la sortie aurait lieu le mois prochain.

Avec ses racines open source, Llama-2 a été essentiel dans le développement simultané d'autres modèles puissants tels que Mixtral, Alpaca, Vicuna et WizardLM. Maintenant, Llama-3 promet d'aller encore plus loin avec ces capacités, offrant des fonctionnalités comparables à celles du modèle d'IA phare actuel de OpenAI, GPT-4.

Méta a salué la sortie de jeudi comme «la prochaine génération de notre modèle de langage de pointe open source.» Si confiant est le géant de la technologie dans ses capacités, Llama 3 alimente Meta AI, qui à son tour a été ajouté à presque toutes les applications massivement populaires de l'entreprise : Instagram, Facebook et WhatsApp. Il a été rendu disponible dans certains pays, mais les utilisateurs dans d'autres régions pourraient y accéder via VPN.

L'interface de chatbot de Meta AI est comparable à ChatGPT Plus - et c'est gratuit.

«Nous améliorons Meta AI avec notre nouveau modèle d'IA de pointe Llama 3, que nous mettons en open source,» a déclaré Mark Zuckerberg dans un post Facebook. «Avec ce nouveau modèle, nous croyons que Meta AI est maintenant l'assistant IA le plus intelligent que vous pouvez utiliser librement.»

Decrypt a pu tester le nouveau AI et l'a trouvé aussi performant que ChatGPT-Plus sans abonnement payant. Il peut générer des images et des animations, produire du code et fournir des réponses cohérentes et contextuellement pertinentes. Le nouveau chatbot peut également accéder à Internet, mais il n'est toujours pas à la hauteur des capacités des solutions spécialisées comme Perplexity.

Peut-être le seul inconvénient est que la fenêtre contextuelle actuelle de Llama-3 est limitée à 8K tokens —environ 6 000 mots.

Meta a publié un modèle Llama-3 de 70 milliards de paramètres, mais son utilisation nécessiterait une puissance de calcul importante —probablement tout un rack de GPUs. Selon des benchmarks synthétiques, ce modèle bat Gemini 1.5 Pro et Claude 3 Sonnet.

Il existe également un modèle de 8 milliards de paramètres disponible, qui peut être exécuté localement sur des GPUs grand public. Celui-ci bat Google’s Gemma et Mistral 7B dans divers benchmarks synthétiques. Le modèle n'a pas encore été répertorié dans l'arène LLM, donc il n'y a pas encore de score ELO subjectif à signaler.

Lama 3 contre d'autres IA LLM — Image: Meta

Les deux modèles peuvent également être exécutés dans des instances cloud à moindre coût.

«Nous nous engageons à développer Llama 3 de manière responsable et nous proposons diverses ressources pour aider les autres à l'utiliser de manière responsable également», a déclaré Meta. Cela inclut l'introduction de nouveaux outils de confiance et de sécurité tels que Llama Guard 2, Code Shield et CyberSec Eval 2.

Dans les mois à venir, Meta prévoit d'introduire de nouvelles capacités, des fenêtres de contexte plus longues, des tailles de modèle supplémentaires et des performances améliorées. Le document de recherche sur Llama 3 sera également partagé.

«L'IA de Meta, construite avec la technologie Llama 3, est désormais l'une des principales assistantes AI au monde qui peut améliorer votre intelligence et alléger votre charge - vous aidant à apprendre, à accomplir des tâches, à créer du contenu et à vous connecter pour tirer le meilleur parti de chaque instant», a déclaré Meta.

Meta a ajouté qu'elle forme également un modèle massif de 400 milliards de paramètres, qui devrait être publié plus tard cette année. Ce modèle - probablement comparable à Claude Opus ou à la dernière version de GPT-4.5 - pourrait être le modèle open source le plus puissant à ce jour. Si l'histoire se répète, il servira également de base pour une nouvelle génération de modèles affinés qui surpasseront Llama-3 en termes de qualité globale - et renforceront la concurrence contre les principaux modèles à code source fermé.

Monter sur le Llama

Decrypt a testé Llama-3 à l'intérieur de Meta AI pour voir si c'était aussi bon que ce que Zuck dit. En bref, Llama-3 a introduit un certain nombre de fonctionnalités et capacités notables et devrait être un excellent modèle de base sur lequel la communauté open source peut itérer.

Modération de contenu

Llama-3 démontre un engagement fort envers la modération de contenu. Il a systématiquement refusé de générer du contenu racial nocif, même lorsqu'il était confronté à des techniques de jailbreak courantes.

Par exemple, lorsque le modèle a été interrogé sur les instructions pour séduire une femme, il a fourni des réponses génériques mais utiles. Cependant, lorsqu'on lui a demandé des instructions pour séduire la femme d'un meilleur ami, le modèle a fermement refusé de fournir une réponse.

Images et animation

Tout comme ChatGPT-Plus, Meta AI avec Llama-3 est capable de générer des images. Cependant, il va plus loin en offrant la possibilité de les animer, une fonctionnalité non disponible dans ChatGPT ou Gemini.

Les images générées par Meta AI avec Llama-3 sont plus réalistes que celles produites par Dalle-3, mais elles ne sont pas aussi qualitatives que les images générées par ImageFX, la prochaine création de Google.

Capacités de codage

Llama-3 s'est révélé très compétent en programmation. Lorsqu'il a été confronté à une idée de jeu unique et mal expliquée, le modèle a pu générer le code Python nécessaire en deux tentatives, aboutissant à un jeu fonctionnel. Le premier essai nous a donné une idée approximative de la création du jeu, mais il a créé un code fonctionnel après que nous ayons précisé que nous en avions besoin en Python.

Le jeu était fonctionnel mais manquait de quelques détails mineurs, comme la possibilité de redémarrer après qu'un joueur gagne. Il en était de même avec d'autres chatbots.

Nous avons constaté que Claude 3 Sonnet était le meilleur outil pour cette tâche, suivi de Llama 3. GPT-4 se classe en troisième position. Cependant, les résultats peuvent varier selon les utilisateurs.

Voici un pastebin avec les codes sources générés par Llama3, Claude et ChatGPT pour ceux qui souhaitent les tester.

Neutralité politique

Le modèle vise la neutralité politique, comme en témoignent ses réponses aux questions sur le capitalisme et le communisme. Les réponses étaient structurellement similaires, fournissant une introduction, les avantages et les inconvénients de chaque système.

Ce schéma de neutralité a également été observé dans les réponses aux questions telles que «Qu'est-ce qu'un homme ?» et «Qu'est-ce qu'une femme ?»

Pourtant, ses réponses penchent légèrement en faveur du capitalisme et sont de gauche, ce qui n'est pas surprenant car c'est la tendance politique la plus courante parmi les grands modèles linguistiques.

Raisonnement logique

Llama-3 a montré de puissantes capacités de raisonnement logique. Lorsqu'il a été testé avec des questions complexes du LSAT qui embrouillent souvent les utilisateurs, le modèle a non seulement fourni des réponses correctes, mais a également offert des explications claires et raisonnables.

Limites des longues invitations

Malgré ses nombreuses forces, le Llama-3 a du mal avec les longues invitations. Lorsqu'il est confronté à une invitation longue d'environ une page et demie de contexte - qui peut être ingérée par des modèles comme GPT-4, Claude ou Mistral - le modèle a renvoyé un message d'erreur.

Compréhension du langage

Le modèle démontre une forte compréhension de différentes langues. Lorsqu'on lui a demandé de traduire un slogan espagnol, il a non seulement fourni une traduction précise, mais a également offert un contexte pour mieux comprendre le slogan.

Conclusion

En tant qu'interface de chatbot, Meta AI (qui est alimentée par Llama3) peut rivaliser avec ChatGPT Plus et est un excellent choix global.

Sur un plan plus technique, LLama3 en tant que LLM est suffisamment bon pour rivaliser avec GPT-4 dans différents scénarios, perdant uniquement en termes de capacités de contexte de jeton et de générations augmentées par récupération (essentiellement extraire des informations d'un ensemble de données spécifique fourni par l'utilisateur). Cela peut être important pour les utilisateurs technophiles, mais peut ne pas être crucial pour la personne ordinaire.

Si vous utilisez principalement ChatGPT pour générer des images avec Dall-E, vous voudrez peut-être envisager d'annuler votre abonnement, car les capacités de génération d'images et d'animations de Llama-3 sont comparables. Cependant, si vous avez également besoin de support pour de longues instructions, Llama-3 pourrait ne pas être le meilleur choix pour vous et vous voudrez peut-être envisager de rester avec ChatGPT-Plus.

Les utilisateurs occasionnels peuvent constater que Llama-3 répond à leurs besoins sans nécessiter d'adhésion payante.

Pour les tâches nécessitant une recherche intensive sur Internet, ChatGPT Plus ou Perplexity peuvent être plus adaptés.

Enfin, si votre focus est sur la programmation, Llama-3 pourrait être une bonne alternative, bien qu'il existe d'autres outils spécialisés disponibles. Le fait que Llama-3 soit gratuit est un avantage significatif.

Édité par Ryan Ozawa.

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.

Coin Prices