Claude 2 Está Disponible: Comparación de la IA de Anthropic vs ChatGPT y Google Bard

La última entrada de Anthropic puede manejar 100k de contexto, ¿pero será suficiente para competir?

Por Jose Antonio Lanz

9 min lectura

Anthropic, la empresa de IA lanzada por antiguos investigadores de OpenAI, ha presentado su chatbot actualizado, Claude 2, poniendo su mirada directamente en rivales como ChatGPT y Google Bard.

Apenas cinco meses después del debut de Claude, su sucesor presume de respuestas más largas, razonamiento matizado y un rendimiento superior, obteniendo una puntuación impresionante en los exámenes de lectura y escritura del GRE.

Claude 2 ha sido caracterizado como una potencia de IA capaz de procesar hasta 100.000 tokens, aproximadamente equivalentes a 75.000 palabras, en una sola solicitud. Esto supone un salto drástico respecto al límite anterior de 9.000 tokens de Claude, lo que presenta una ventaja única: la capacidad de la IA para proporcionar respuestas de manera más contextual y mejorada.

El nuevo modelo ha logrado avances significativos en múltiples campos, incluyendo derecho, matemáticas y programación, evaluados a través de pruebas estandarizadas.

Según Anthropic, Claude 2 obtuvo un 76.5% en la sección de opción múltiple del examen de abogacía (GPT-3.5 obtuvo un 50.3%) y logró una puntuación superior al 90% de los solicitantes de posgrado en los exámenes de lectura y escritura del GRE. Claude 2 también obtuvo un 71.2% en la prueba de codificación en Python Codex HumanEval y un 88.0% en problemas de matemáticas de nivel escolar GSM8k, revelando sus habilidades computacionales avanzadas.

Según informa Decrypt, Claude de Anthropic está diseñado con una "constitución" única, un conjunto de reglas inspiradas en la Declaración Universal de Derechos Humanos, que le permite mejorar sin retroalimentación humana, identificar comportamientos inapropiados y adaptar su propia conducta.

Pero, ¿cómo se compara con los dos monarcas de la colina, ChatGPT y el nuevo Bard de Google? Comencemos por ver cómo se comparan en especificaciones.

Precio:

  • ChatGPT: Gratis para aquellos que usan la versión GPT-3.5. Aquellos que quieran usar la versión más potente que ejecuta GPT-4 tendrán que pagar $20 al mes por la versión ChatGPT Plus.
  • Claude: Gratis
  • Bard: Gratis

Disponibilidad:

Privacidad:

  • ChatGPT: Permite a los usuarios eliminar sus interacciones. No admite la navegación a través de VPN.
  • Bard: Tiene la opción de eliminar automáticamente las interacciones en 18 meses. No permite a los usuarios recuperar interacciones anteriores. Admite VPN, lo que lo hace virtualmente disponible en cualquier parte del mundo, eludiendo restricciones políticas.
  • Claude: Permite a los usuarios eliminar sus conversaciones. Admite navegación a través de VPN.

Idiomas admitidos:

  • ChatGPT: Admite más de 80 idiomas.
  • Bard: Admite inglés, japonés y coreano.
  • Claude: Admite varios idiomas ampliamente hablados como inglés, español, portugués, francés, mandarín y alemán, entre otros. Si no reconoce un idioma (o la entrada tiene muchos errores gramaticales), proporciona una frase introductoria y luego responde en inglés.

Manejo de contexto:

  • ChatGPT: La versión gratuita admite 7.096 tokens de contexto, ChatGPT Plus (GPT-4) admite 8.192 tokens. OpenAI ofrece una versión que admite 32K tokens, pero no es utilizada por ChatGPT.
  • Bard: Admite 8.196 tokens de contexto.
  • Claude: Admite 100.000 tokens de contexto, no es un error tipográfico.

Características:

  • ChatGPT: La versión gratuita no tiene características adicionales. GPT Plus ofrece una tienda de complementos, un intérprete de código y una función de navegación web temporalmente pausada impulsada por Microsoft Bing. Ofrece soporte para API.
  • Bard: El chatbot aún está en fase experimental, pero tendrá una tienda de complementos e integración con Google Suite. Ofrece acceso limitado a su API.
  • Claude: El chatbot se puede agregar a Slack y manejar diferentes tareas como resumir hilos, proporcionar sugerencias, generar ideas, etc. Ofrece soporte para API.

La batalla de los prompts: ChatGPT vs Bard vs Claude

Decrypt utilizó el mismo prompt para comparar los resultados obtenidos por los tres chatbots.

Comprensión de idiomas extranjeros

Primero, pedimos el significado de una frase común en el argot español. Claude demostró ser más cuidadoso y preciso con su explicación, ChatGPT proporcionó una explicación bastante buena, pero Bard se negó a responder, argumentando que no podía hablar español. Sin embargo, una vez que reformulamos nuestra pregunta de "¿qué significa esto?" a "¿cuál es el equivalente en inglés?", proporcionó una mejor respuesta que la de ChatGPT, aunque menos extensa que la de Claude AI.

Respuesta proporcionada por Claude 2.

 

Respuesta proporcionada por ChatGPT.

 

Respuesta proporcionada por Google Bard.

Información actualizada

Luego, le pedimos a los modelos el precio de Bitcoin hoy. Esto no solo prueba las funciones de navegación web, sino que también evalúa cuánta información proporciona cada uno en función de una sola orden.

ChatGPT falló. No está conectado a internet, por lo que no puede proporcionar información actualizada. Claude tampoco tiene conexión a internet. Sin embargo, a diferencia de ChatGPT, alucinó una respuesta con información incorrecta. Si un usuario hiciera una pregunta asumiendo que Claude tiene conexión a internet, recibiría una respuesta incorrecta que parece correcta. Google Bard proporcionó la información correcta.

Respuesta proporcionada por ChatGPT.

 

Respuesta proporcionada por Claude 2.

 

Respuesta proporcionada por Google Bard.

Manejo de contexto

A continuación, pusimos a prueba los modelos en su capacidad para manejar grandes fragmentos de texto. Utilizamos la Biblia como ejemplo y copiamos todo el texto desde Génesis 1:1 hasta Éxodo 25:39 (casi 62.000 palabras). Luego hicimos una pregunta muy específica sobre la historia proporcionada en el texto.

El único modelo capaz de proporcionar una respuesta fue Claude, como se esperaba. Tomó alrededor de 2 minutos procesar la indicación, pero dio una respuesta precisa. Utilizamos marcadores específicos para asegurarnos de que no estaba haciendo trampa y de que de hecho estaba analizando el texto, y demostró estar a la altura de la tarea.

Respuesta proporcionada por Claude 2.

Habilidades no verbales

Finalmente, les pedimos a los modelos que realizaran algunas tareas matemáticas. Los LLM de IA no están realmente diseñados para hacer esto, y ChatGPT Plus con GPT-4 es probablemente la mejor opción entre los tres con su intérprete de código. Sin embargo, probamos los tres modelos y les pedimos que crearan un plan de pago para una persona que intenta liquidar sus deudas de tarjeta de crédito. También les pedimos a los modelos que clasificaran qué tarjetas deberían usarse y cuáles deberían evitarse.

Claude proporcionó las respuestas más completas en cuanto al plan. Sin embargo, cometió un error y nos recomendó priorizar el gasto en la tarjeta con la tasa de interés anual más alta.

Respuesta proporcionada por Claude 2.

El intérprete de código ChatGPT proporcionó una respuesta donde pagamos de más una de las tarjetas, lo cual no es realmente útil si alguien tiene deudas en otras tarjetas.

Respuesta proporcionada por ChatGPT utilizando el intérprete de código.

GPT 3.5 no proporcionó resultados precisos, pidiéndonos que paguemos más dinero del que realmente teníamos disponible.

Respuesta proporcionada por ChatGPT.

Bard fue bastante genérico. Optó por la ruta segura y no proporcionó ningún número, básicamente describiendo lo que se conoce como el método de la Avalancha de Deudas.

Respuesta proporcionada por Google Bard.

Fortalezas y debilidades

Claude 2:

  • Fortalezas: Claude 2 tiene una impresionante capacidad para manejar grandes contextos de hasta 100.000 tokens. Exhibe un rendimiento superior en diversos campos como el derecho, las matemáticas y la programación, presumiendo de altas puntuaciones en pruebas estandarizadas. Puede mejorar y adaptarse sin necesidad de retroalimentación humana, y admite navegación VPN. El chatbot también se puede agregar a Slack para el manejo de tareas y proporciona soporte de API.
  • Debilidades: Actualmente solo está disponible en los Estados Unidos y el Reino Unido. Claude 2 carece de conexión a Internet y puede proporcionar información incorrecta si se le pregunta sobre datos del mundo real actual. Puede cometer errores en tareas complejas y sonar muy convincente al respecto.

ChatGPT:

  • Fortalezas: ChatGPT es el modelo más ampliamente disponible de los tres, compatible con más de 80 idiomas. También ofrece soporte de API y una tienda de complementos en la versión ChatGPT Plus.
  • Debilidades: Tiene capacidades limitadas para manejar contexto en comparación con Claude 2. La versión gratuita no ofrece características adicionales y es mucho más limitada y de menor calidad que la versión de pago. Su función de navegación web está temporalmente pausada y no puede proporcionar datos en tiempo real. En algunas tareas complejas, puede generar resultados inapropiados.

Bard de Google:

  • Fortalezas: Bard admite navegación VPN. Puede proporcionar datos en tiempo real debido a su conexión a Internet. Bard también planea integrarse con Google Suite y ofrecer una tienda de complementos.
  • Debilidades: Bard admite menos idiomas que ChatGPT. Su acceso a la API es limitado y sus capacidades para manejar contexto son inferiores a las de Claude 2. Las respuestas de Bard pueden ser genéricas y poco útiles en algunas tareas complejas, lo cual es un compromiso razonable si el usuario desea reducir el riesgo de alucinaciones.

Conclusión

Ahora que el campo de los LLMs de IA y los chatbots tienen más opciones disponibles, no es necesario convertirse necesariamente en un fanático de ChatGPT o entrar al campamento exclusivo de Google.

 

Sin embargo, cada opción tiene fortalezas y debilidades que hacen que cada bot sea más atractivo para necesidades específicas. Claude maneja grandes cantidades de datos, pero puede no ser la mejor opción para tareas que requieren datos en tiempo real. ChatGPT es más creativo, lo cual es perfecto para tareas que requieren soporte en un lenguaje específico (y su tienda de complementos es realmente buena si estás dispuesto a pagar el precio).

Si tienes dudas en pagar $20 por ChatGPT Plus, considera usar Claude. Este servicio ofrece una funcionalidad comparable a la de GPT-4 y es probable que genere resultados superiores a GPT-3.5, la versión gratuita de ChatGPT. Además, Claude se posiciona como una opción aún mejor que Google Bard para la mayoría de los usuarios. Una ventaja adicional de Claude es su capacidad para analizar documentos PDF y archivos con diversas extensiones. Basta con arrastrar y soltar los archivos en el programa, al igual que los complementos de pago disponibles en la suscripción GPT Plus. Así que, antes de decidir pagar por ChatGPT 4, quizás quieras darle una oportunidad a Claude. Podría ahorrarte algo de dinero.

Por otro lado, Bard es más factual, preciso y aprovecha su conectividad a internet, pero puede no ser el mejor para tareas creativas.

Al final, ¿por qué elegir uno? No necesitas decidir cuál es mejor, si puedes usarlos todos.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Noticias recomendados