Anthropic, la société d'IA lancée par d'anciens chercheurs d'OpenAI, a dévoilé son chatbot mis à jour, Claude 2, en se concentrant directement sur des concurrents tels que ChatGPT et Google Bard.

À peine cinq mois après le lancement de Claude, son successeur offre des réponses plus longues, un raisonnement nuancé et des performances supérieures, obtenant des résultats impressionnants aux examens de lecture et d'écriture du GRE.

Claude 2 a été qualifié de puissance de l'IA capable d'analyser jusqu'à 100 000 jetons, soit environ 75 000 mots, en une seule demande. Il s'agit d'un bond spectaculaire par rapport à la limite précédente de 9 000 jetons de Claude, ce qui présente un avantage unique : la capacité de l'IA à fournir des réponses de manière plus contextuelle et améliorée.

Le nouveau modèle a fait des progrès significatifs dans plusieurs domaines, notamment le droit, les mathématiques et la programmation, évalués par des tests standardisés. Selon Anthropic, Claude 2 a obtenu un score de 76,5 % dans la section à choix multiples de l'examen du Barreau (GPT-3.5 a obtenu 50,3 %) et a obtenu un score supérieur à 90 % des candidats aux études supérieures aux examens de lecture et d'écriture du GRE. Claude 2 a également obtenu un score de 71,2 % au test de codage Python Codex HumanEval et un score de 88,0 % aux problèmes de mathématiques de niveau primaire GSM8k, révélant ainsi ses compétences avancées en calcul.

AD

Comme le rapporte Decrypt, Claude d'Anthropic est conçu avec une «constitution» unique, un ensemble de règles inspirées de la Déclaration universelle des droits de l'homme, qui lui permet de s'améliorer sans rétroaction humaine, d'identifier un comportement inapproprié et d'adapter sa propre conduite.

Mais comment se compare-t-il aux deux monarques de la colline, ChatGPT et le nouveau Bard de Google ? Commençons par voir comment ils se comparent en termes de spécifications.

Prix :

  • ChatGPT : Gratuit pour ceux qui utilisent la version GPT-3.5. Ceux qui veulent utiliser la version plus puissante avec GPT-4 devront payer 20 $ par mois pour la version ChatGPT Plus.
  • Claude : Gratuit
  • Bard : Gratuit

Disponibilité :

AD

Vie privée :

  • ChatGPT : Permet aux utilisateurs de supprimer leurs interactions. Ne prend pas en charge la navigation via VPN.
  • Bard : Offre une option de suppression automatique des interactions au bout de 18 mois. Ne permet pas aux utilisateurs de récupérer les interactions précédentes. Prend en charge les VPN, ce qui le rend virtuellement disponible dans n'importe quelle partie du monde, contournant les restrictions politiques.
  • Claude : Permet aux utilisateurs de supprimer leurs conversations. Prend en charge la navigation via VPN.

Langues prises en charge :

  • ChatGPT : prend en charge plus de 80 langues.
  • Bard : prend en charge l'anglais, le japonais et le coréen.
  • Claude : prend en charge plusieurs langues courantes telles que l'anglais, l'espagnol, le portugais, le français, le mandarin et l'allemand, entre autres. S'il ne reconnaît pas une langue (ou si l'entrée contient de nombreuses erreurs de grammaire), il fournit une phrase d'introduction puis répond en anglais.

Gestion du contexte :

  • ChatGPT : La version gratuite prend en charge 7 096 jetons de contexte, ChatGPT Plus (GPT-4) prend en charge 8 192 jetons. OpenAI propose une version qui prend en charge 32 000 jetons, mais elle n'est pas utilisée par ChatGPT.
  • Bard : Prend en charge 8 196 jetons de contexte.
  • Claude : Prend en charge 100 000 jetons de contexte - pas une faute de frappe.

Fonctionnalités :

  • ChatGPT : La version gratuite n'a pas de fonctionnalités supplémentaires. GPT Plus propose une boutique de plugins, un interpréteur de code et une fonctionnalité de navigation web temporairement suspendue alimentée par Microsoft Bing. Fournit une prise en charge de l'API.
  • Bard : Le chatbot est encore en phase expérimentale mais disposera d'une boutique de plugins et d'une intégration avec Google Suite. Offre un accès limité à son API.
  • Claude : Le chatbot peut être ajouté à Slack et gérer différentes tâches telles que la synthèse de fils de discussion, la fourniture de suggestions, le brainstorming, etc. Fournit une prise en charge de l'API.

La bataille des prompts : ChatGPT vs Bard vs Claude

Decrypt a utilisé le même prompt pour comparer les résultats obtenus par les trois chatbots.

Compréhension des langues étrangères

D'abord, nous avons demandé la signification d'une expression argotique espagnole courante. Claude s'est avéré plus prudent et précis dans son explication, ChatGPT a fourni une explication suffisamment bonne, mais Bard a refusé de répondre, arguant qu'il ne pouvait pas parler espagnol. Cependant, une fois que nous avons reformulé notre demande de «que signifie cela» à «quelle est l'équivalent en anglais», il a fourni une meilleure réponse que celle fournie par ChatGPT, bien que moins détaillée que celle de Claude AI.

Réponse fournie par Claude 2
Réponse fournie par Claude 2.
Réponse fournie par ChatGPT
Réponse fournie par ChatGPT.
Réponse fournie par Google Bard
Réponse fournie par Google Bard.

Informations à jour

Ensuite, nous avons demandé aux modèles le prix du Bitcoin aujourd'hui. Cela teste non seulement les fonctionnalités de navigation sur le web, mais évalue également la quantité d'informations fournies par chacun en fonction d'une seule commande.

ChatGPT a échoué. Il n'est pas connecté à internet, donc il ne peut pas fournir d'informations à jour. Claude n'a pas non plus de connexion internet. Contrairement à ChatGPT, cependant, il a halluciné une réponse avec des informations incorrectes. Si un utilisateur posait une question en supposant que Claude a une connexion internet, il recevrait une réponse fausse qui semble correcte. Google Bard a fourni les informations correctes.

AD
Réponse fournie par ChatGPT
Réponse fournie par ChatGPT.
Réponse fournie par Claude 2
Réponse fournie par Claude 2.
Réponse fournie par Google Bard
Réponse fournie par Google Bard.

Gestion du contexte

Ensuite, nous avons mis les modèles à l'épreuve de leur capacité à gérer de grands morceaux de texte. Nous avons utilisé la Bible comme exemple et avons copié tout le texte de Genèse 1:1 à Exode 25:39 (presque 62 000 mots). Ensuite, nous avons posé une question très spécifique à partir de l'histoire fournie dans le texte.

Le seul modèle capable de fournir une réponse était Claude, comme prévu. Il a fallu environ 2 minutes pour traiter la demande, mais il a fourni une réponse précise. Nous avons utilisé des marqueurs spécifiques pour nous assurer qu'il ne trichait pas et qu'il analysait effectivement le texte, et il s'est avéré à la hauteur de la tâche.

Réponse fournie par Claude 2
Réponse fournie par Claude 2.

Compétences non verbales

Enfin, nous avons demandé aux modèles de gérer quelques tâches mathématiques. Les AI LLM ne sont pas vraiment conçus pour cela, et ChatGPT Plus avec GPT-4 est probablement la meilleure option parmi les trois avec son interprète de code. Cependant, nous avons testé les trois modèles et leur avons demandé de créer un plan de paiement pour une personne essayant de rembourser ses dettes de carte de crédit. Nous avons également demandé aux modèles de classer les cartes qui devraient être utilisées et celles qui devraient être évitées.

Claude a fourni les réponses les plus complètes en termes de plan. Cependant, il a fait une erreur et nous a recommandé de prioriser les dépenses sur la carte avec le taux annuel le plus élevé.

Réponse fournie par Claude 2
Réponse fournie par Claude 2.

L'interprète de code de ChatGPT a fourni une réponse où nous payons trop sur l'une des cartes, ce qui n'est pas vraiment utile si quelqu'un a des dettes sur d'autres cartes.

Réponse fournie par ChatGPT à l'aide de l'interprète de code
Réponse fournie par ChatGPT à l'aide de l'interprète de code.

GPT 3.5 n'a pas fourni de résultats précis, nous demandant de payer plus d'argent que ce que nous avions réellement disponible.

Réponse fournie par ChatGPT
Réponse fournie par ChatGPT.

Bard était assez générique. Il a opté pour la voie sûre et n'a fourni aucun chiffre, décrivant essentiellement ce qui est connu sous le nom de méthode de la Dette Avalanche.

Réponse fournie par Google Bard
Réponse fournie par Google Bard.

Forces et faiblesses

Claude 2:

AD
  • Forces: Claude 2 a une capacité impressionnante à gérer de grands contextes jusqu'à 100 000 jetons. Il présente des performances supérieures dans divers domaines tels que le droit, les mathématiques et la programmation, avec des scores élevés aux tests standardisés. Il peut s'améliorer et s'adapter sans rétroaction humaine, et prend en charge la navigation VPN. Le chatbot peut également être ajouté à Slack pour la gestion des tâches et offre une prise en charge API.
  • Faiblesses: Il est temporairement disponible uniquement aux États-Unis et au Royaume-Uni. Claude 2 n'a pas de connexion Internet et peut fournir des informations incorrectes si on lui demande des données réelles actuelles. Il peut faire des erreurs dans les tâches complexes et sembler très convaincant à ce sujet.

ChatGPT:

  • Forces : ChatGPT est le modèle le plus largement disponible des trois, prenant en charge plus de 80 langues. Il offre également une prise en charge de l'API et une boutique de plugins dans la version ChatGPT Plus.
  • Faiblesses : Il a des capacités de gestion de contexte limitées par rapport à Claude 2. La version gratuite n'offre pas de fonctionnalités supplémentaires et est beaucoup plus limitée et de moindre qualité que la version payante. Sa fonction de navigation sur le web est temporairement suspendue et ne peut pas fournir de données en temps réel. Dans certaines tâches complexes, il peut générer des résultats inappropriés.

Bard de Google :

  • Forces : Bard prend en charge la navigation VPN. Il peut fournir des données en temps réel grâce à sa connexion à Internet. Bard prévoit également de s'intégrer à Google Suite et d'offrir une boutique de plugins.
  • Faiblesses : Bard prend en charge moins de langues que ChatGPT. Son accès à l'API est limité et ses capacités de gestion de contexte sont inférieures à celles de Claude 2. Les réponses de Bard peuvent être génériques et peu utiles dans certaines tâches complexes, ce qui est un compromis raisonnable si l'utilisateur souhaite réduire le risque d'hallucinations.

Conclusion

Maintenant que le domaine des LLMs et des chatbots d'IA offre plus d'options, il n'est pas nécessaire de devenir un fanboy de ChatGPT ou d'entrer dans le camp de Google uniquement.

Chaque option a des forces et des faiblesses qui rendent chaque bot plus attrayant pour des besoins spécifiques. Claude gère de grandes quantités de données mais peut ne pas être le meilleur choix pour les tâches nécessitant des données en temps réel. ChatGPT est plus créatif, ce qui est parfait pour les tâches nécessitant un support linguistique spécifique (et sa boutique de plugins est vraiment bonne si vous êtes prêt à payer le prix). D'un autre côté, Bard est plus factuel, précis et tire parti de sa connectivité Internet, mais il pourrait ne pas être le meilleur choix pour les tâches créatives.

En fin de compte, pourquoi choisir ? Vous n'avez pas besoin de décider lequel est meilleur - vous pouvez tous les utiliser.

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.