10 min de lecture
Anthropic, la société d'IA lancée par d'anciens chercheurs d'OpenAI, a dévoilé son chatbot mis à jour, Claude 2, en se concentrant directement sur des concurrents tels que ChatGPT et Google Bard.
À peine cinq mois après le lancement de Claude, son successeur offre des réponses plus longues, un raisonnement nuancé et des performances supérieures, obtenant des résultats impressionnants aux examens de lecture et d'écriture du GRE.
Claude 2 a été qualifié de puissance de l'IA capable d'analyser jusqu'à 100 000 jetons, soit environ 75 000 mots, en une seule demande. Il s'agit d'un bond spectaculaire par rapport à la limite précédente de 9 000 jetons de Claude, ce qui présente un avantage unique : la capacité de l'IA à fournir des réponses de manière plus contextuelle et améliorée.
Le nouveau modèle a fait des progrès significatifs dans plusieurs domaines, notamment le droit, les mathématiques et la programmation, évalués par des tests standardisés. Selon Anthropic, Claude 2 a obtenu un score de 76,5 % dans la section à choix multiples de l'examen du Barreau (GPT-3.5 a obtenu 50,3 %) et a obtenu un score supérieur à 90 % des candidats aux études supérieures aux examens de lecture et d'écriture du GRE. Claude 2 a également obtenu un score de 71,2 % au test de codage Python Codex HumanEval et un score de 88,0 % aux problèmes de mathématiques de niveau primaire GSM8k, révélant ainsi ses compétences avancées en calcul.
Comme le rapporte Decrypt, Claude d'Anthropic est conçu avec une «constitution» unique, un ensemble de règles inspirées de la Déclaration universelle des droits de l'homme, qui lui permet de s'améliorer sans rétroaction humaine, d'identifier un comportement inapproprié et d'adapter sa propre conduite.
Mais comment se compare-t-il aux deux monarques de la colline, ChatGPT et le nouveau Bard de Google ? Commençons par voir comment ils se comparent en termes de spécifications.
Prix :
Disponibilité :
Vie privée :
Langues prises en charge :
Gestion du contexte :
Fonctionnalités :
Decrypt a utilisé le même prompt pour comparer les résultats obtenus par les trois chatbots.
D'abord, nous avons demandé la signification d'une expression argotique espagnole courante. Claude s'est avéré plus prudent et précis dans son explication, ChatGPT a fourni une explication suffisamment bonne, mais Bard a refusé de répondre, arguant qu'il ne pouvait pas parler espagnol. Cependant, une fois que nous avons reformulé notre demande de «que signifie cela» à «quelle est l'équivalent en anglais», il a fourni une meilleure réponse que celle fournie par ChatGPT, bien que moins détaillée que celle de Claude AI.
Réponse fournie par Claude 2.
Réponse fournie par ChatGPT.
Réponse fournie par Google Bard.
Ensuite, nous avons demandé aux modèles le prix du Bitcoin aujourd'hui. Cela teste non seulement les fonctionnalités de navigation sur le web, mais évalue également la quantité d'informations fournies par chacun en fonction d'une seule commande.
ChatGPT a échoué. Il n'est pas connecté à internet, donc il ne peut pas fournir d'informations à jour. Claude n'a pas non plus de connexion internet. Contrairement à ChatGPT, cependant, il a halluciné une réponse avec des informations incorrectes. Si un utilisateur posait une question en supposant que Claude a une connexion internet, il recevrait une réponse fausse qui semble correcte. Google Bard a fourni les informations correctes.
Réponse fournie par ChatGPT.
Réponse fournie par Claude 2.
Réponse fournie par Google Bard.
Ensuite, nous avons mis les modèles à l'épreuve de leur capacité à gérer de grands morceaux de texte. Nous avons utilisé la Bible comme exemple et avons copié tout le texte de Genèse 1:1 à Exode 25:39 (presque 62 000 mots). Ensuite, nous avons posé une question très spécifique à partir de l'histoire fournie dans le texte.
Le seul modèle capable de fournir une réponse était Claude, comme prévu. Il a fallu environ 2 minutes pour traiter la demande, mais il a fourni une réponse précise. Nous avons utilisé des marqueurs spécifiques pour nous assurer qu'il ne trichait pas et qu'il analysait effectivement le texte, et il s'est avéré à la hauteur de la tâche.
Réponse fournie par Claude 2.
Enfin, nous avons demandé aux modèles de gérer quelques tâches mathématiques. Les AI LLM ne sont pas vraiment conçus pour cela, et ChatGPT Plus avec GPT-4 est probablement la meilleure option parmi les trois avec son interprète de code. Cependant, nous avons testé les trois modèles et leur avons demandé de créer un plan de paiement pour une personne essayant de rembourser ses dettes de carte de crédit. Nous avons également demandé aux modèles de classer les cartes qui devraient être utilisées et celles qui devraient être évitées.
Claude a fourni les réponses les plus complètes en termes de plan. Cependant, il a fait une erreur et nous a recommandé de prioriser les dépenses sur la carte avec le taux annuel le plus élevé.
Réponse fournie par Claude 2.
L'interprète de code de ChatGPT a fourni une réponse où nous payons trop sur l'une des cartes, ce qui n'est pas vraiment utile si quelqu'un a des dettes sur d'autres cartes.
Réponse fournie par ChatGPT à l'aide de l'interprète de code.
GPT 3.5 n'a pas fourni de résultats précis, nous demandant de payer plus d'argent que ce que nous avions réellement disponible.
Réponse fournie par ChatGPT.
Bard était assez générique. Il a opté pour la voie sûre et n'a fourni aucun chiffre, décrivant essentiellement ce qui est connu sous le nom de méthode de la Dette Avalanche.
Réponse fournie par Google Bard.
Claude 2:
ChatGPT:
Bard de Google :
Maintenant que le domaine des LLMs et des chatbots d'IA offre plus d'options, il n'est pas nécessaire de devenir un fanboy de ChatGPT ou d'entrer dans le camp de Google uniquement.
Chaque option a des forces et des faiblesses qui rendent chaque bot plus attrayant pour des besoins spécifiques. Claude gère de grandes quantités de données mais peut ne pas être le meilleur choix pour les tâches nécessitant des données en temps réel. ChatGPT est plus créatif, ce qui est parfait pour les tâches nécessitant un support linguistique spécifique (et sa boutique de plugins est vraiment bonne si vous êtes prêt à payer le prix). D'un autre côté, Bard est plus factuel, précis et tire parti de sa connectivité Internet, mais il pourrait ne pas être le meilleur choix pour les tâches créatives.
En fin de compte, pourquoi choisir ? Vous n'avez pas besoin de décider lequel est meilleur - vous pouvez tous les utiliser.
Decrypt-a-cookie
This website or its third-party tools use cookies. Cookie policy By clicking the accept button, you agree to the use of cookies.