9 min lectura
Anthropic, la empresa de IA lanzada por antiguos investigadores de OpenAI, ha presentado su chatbot actualizado, Claude 2, poniendo su mirada directamente en rivales como ChatGPT y Google Bard.
Apenas cinco meses después del debut de Claude, su sucesor presume de respuestas más largas, razonamiento matizado y un rendimiento superior, obteniendo una puntuación impresionante en los exámenes de lectura y escritura del GRE.
Claude 2 ha sido caracterizado como una potencia de IA capaz de procesar hasta 100.000 tokens, aproximadamente equivalentes a 75.000 palabras, en una sola solicitud. Esto supone un salto drástico respecto al límite anterior de 9.000 tokens de Claude, lo que presenta una ventaja única: la capacidad de la IA para proporcionar respuestas de manera más contextual y mejorada.
El nuevo modelo ha logrado avances significativos en múltiples campos, incluyendo derecho, matemáticas y programación, evaluados a través de pruebas estandarizadas.
Según Anthropic, Claude 2 obtuvo un 76.5% en la sección de opción múltiple del examen de abogacía (GPT-3.5 obtuvo un 50.3%) y logró una puntuación superior al 90% de los solicitantes de posgrado en los exámenes de lectura y escritura del GRE. Claude 2 también obtuvo un 71.2% en la prueba de codificación en Python Codex HumanEval y un 88.0% en problemas de matemáticas de nivel escolar GSM8k, revelando sus habilidades computacionales avanzadas.
Según informa Decrypt, Claude de Anthropic está diseñado con una "constitución" única, un conjunto de reglas inspiradas en la Declaración Universal de Derechos Humanos, que le permite mejorar sin retroalimentación humana, identificar comportamientos inapropiados y adaptar su propia conducta.
Pero, ¿cómo se compara con los dos monarcas de la colina, ChatGPT y el nuevo Bard de Google? Comencemos por ver cómo se comparan en especificaciones.
Precio:
Disponibilidad:
Privacidad:
Idiomas admitidos:
Manejo de contexto:
Características:
Decrypt utilizó el mismo prompt para comparar los resultados obtenidos por los tres chatbots.
Primero, pedimos el significado de una frase común en el argot español. Claude demostró ser más cuidadoso y preciso con su explicación, ChatGPT proporcionó una explicación bastante buena, pero Bard se negó a responder, argumentando que no podía hablar español. Sin embargo, una vez que reformulamos nuestra pregunta de "¿qué significa esto?" a "¿cuál es el equivalente en inglés?", proporcionó una mejor respuesta que la de ChatGPT, aunque menos extensa que la de Claude AI.
Respuesta proporcionada por Claude 2.
Respuesta proporcionada por ChatGPT.
Respuesta proporcionada por Google Bard.
Luego, le pedimos a los modelos el precio de Bitcoin hoy. Esto no solo prueba las funciones de navegación web, sino que también evalúa cuánta información proporciona cada uno en función de una sola orden.
ChatGPT falló. No está conectado a internet, por lo que no puede proporcionar información actualizada. Claude tampoco tiene conexión a internet. Sin embargo, a diferencia de ChatGPT, alucinó una respuesta con información incorrecta. Si un usuario hiciera una pregunta asumiendo que Claude tiene conexión a internet, recibiría una respuesta incorrecta que parece correcta. Google Bard proporcionó la información correcta.
Respuesta proporcionada por ChatGPT.
Respuesta proporcionada por Claude 2.
Respuesta proporcionada por Google Bard.
A continuación, pusimos a prueba los modelos en su capacidad para manejar grandes fragmentos de texto. Utilizamos la Biblia como ejemplo y copiamos todo el texto desde Génesis 1:1 hasta Éxodo 25:39 (casi 62.000 palabras). Luego hicimos una pregunta muy específica sobre la historia proporcionada en el texto.
El único modelo capaz de proporcionar una respuesta fue Claude, como se esperaba. Tomó alrededor de 2 minutos procesar la indicación, pero dio una respuesta precisa. Utilizamos marcadores específicos para asegurarnos de que no estaba haciendo trampa y de que de hecho estaba analizando el texto, y demostró estar a la altura de la tarea.
Respuesta proporcionada por Claude 2.
Finalmente, les pedimos a los modelos que realizaran algunas tareas matemáticas. Los LLM de IA no están realmente diseñados para hacer esto, y ChatGPT Plus con GPT-4 es probablemente la mejor opción entre los tres con su intérprete de código. Sin embargo, probamos los tres modelos y les pedimos que crearan un plan de pago para una persona que intenta liquidar sus deudas de tarjeta de crédito. También les pedimos a los modelos que clasificaran qué tarjetas deberían usarse y cuáles deberían evitarse.
Claude proporcionó las respuestas más completas en cuanto al plan. Sin embargo, cometió un error y nos recomendó priorizar el gasto en la tarjeta con la tasa de interés anual más alta.
Respuesta proporcionada por Claude 2.
El intérprete de código ChatGPT proporcionó una respuesta donde pagamos de más una de las tarjetas, lo cual no es realmente útil si alguien tiene deudas en otras tarjetas.
Respuesta proporcionada por ChatGPT utilizando el intérprete de código.
GPT 3.5 no proporcionó resultados precisos, pidiéndonos que paguemos más dinero del que realmente teníamos disponible.
Respuesta proporcionada por ChatGPT.
Bard fue bastante genérico. Optó por la ruta segura y no proporcionó ningún número, básicamente describiendo lo que se conoce como el método de la Avalancha de Deudas.
Respuesta proporcionada por Google Bard.
Claude 2:
ChatGPT:
Bard de Google:
Ahora que el campo de los LLMs de IA y los chatbots tienen más opciones disponibles, no es necesario convertirse necesariamente en un fanático de ChatGPT o entrar al campamento exclusivo de Google.
Sin embargo, cada opción tiene fortalezas y debilidades que hacen que cada bot sea más atractivo para necesidades específicas. Claude maneja grandes cantidades de datos, pero puede no ser la mejor opción para tareas que requieren datos en tiempo real. ChatGPT es más creativo, lo cual es perfecto para tareas que requieren soporte en un lenguaje específico (y su tienda de complementos es realmente buena si estás dispuesto a pagar el precio).
Si tienes dudas en pagar $20 por ChatGPT Plus, considera usar Claude. Este servicio ofrece una funcionalidad comparable a la de GPT-4 y es probable que genere resultados superiores a GPT-3.5, la versión gratuita de ChatGPT. Además, Claude se posiciona como una opción aún mejor que Google Bard para la mayoría de los usuarios. Una ventaja adicional de Claude es su capacidad para analizar documentos PDF y archivos con diversas extensiones. Basta con arrastrar y soltar los archivos en el programa, al igual que los complementos de pago disponibles en la suscripción GPT Plus. Así que, antes de decidir pagar por ChatGPT 4, quizás quieras darle una oportunidad a Claude. Podría ahorrarte algo de dinero.
Por otro lado, Bard es más factual, preciso y aprovecha su conectividad a internet, pero puede no ser el mejor para tareas creativas.
Al final, ¿por qué elegir uno? No necesitas decidir cuál es mejor, si puedes usarlos todos.
Decrypt-a-cookie
This website or its third-party tools use cookies. Cookie policy By clicking the accept button, you agree to the use of cookies.