En Resumen

  • Los modelos Claude de Anthropic superan a GPT-3.5 en rendimiento, destacando Claude Pro.
  • GPT-4 lideró la Tabla de clasificación de la Arena de Chatbots con una puntuación Elo de 1181.
  • Modelos de código abierto como WizardLM también se destacaron como jugadores cruciales en la competencia por la IA.

La industria de la IA está presenciando una emocionante competencia entre los destacados modelos ChatGPT y Claude AI. La Organización de Sistemas de Modelos Grandes (LMSO), responsable de crear la Arena de Chatbots y el renombrado Modelo Vicuña o "Vicuna Model", acaba de actualizar su Tabla de clasificación de la Arena de Chatbots, reflejando cómo se comparan cada chatbot de IA con sus competidores. Resulta que Anthropic está poniendo en aprietos a OpenAI, incluso mientras sus modelos siguen siendo gratuitos de usar.

GPT-4, el motor detrás de ChatGPT Plus y Bing AI, sobresalió como el rey supremo con la puntuación más alta, estableciendo el estándar de oro para los Modelos de Lenguaje Grandes o Large Language Models (LLMs). Pero a medida que descendemos en la tabla de clasificación, se desarrolla una inesperada historia de perro guardián.

Los modelos Claude de Anthropic — Claude 1, Claude 2 y Claude Instant — superan a GPT-3.5, el motor que impulsa la versión gratuita de ChatGPT. Esto implica que cada LLM desarrollado por Anthropic puede superar a la versión gratuita de ChatGPT.

El meticuloso sistema de clasificación de LMSO proporcionó información sobre las métricas de rendimiento de estos modelos. Según la tabla de clasificación, GPT-4 tiene una calificación de Arena Elo de 1181, liderando significativamente la lista, mientras que los modelos Claude le siguen de cerca con calificaciones que van desde 1119 hasta 1155. Por otro lado, GPT-3.5 se rezaga con una calificación de 1115.

AD

Para clasificar los modelos, LMSO los hace "luchar" en partidas con consignas similares. El modelo con la mejor respuesta gana y el otro pierde. Los usuarios deciden quién gana basándose en sus propias preferencias, pero nunca llegan a saber qué modelos están compitiendo.

Comparación entre diferentes LLMs para clasificarlos como la mejor IA.
Imagen: LMSO

Como informó Decrypt anteriormente, la diferencia en las capacidades de procesamiento de tokens entre ChatGPT Plus y Claude Pro, aunque no es un factor en la clasificación LMSO, es una ventaja importante que los modelos de Claude tienen sobre GPT.

"Claude Pro, basado en el LLM Claude 2, puede procesar hasta 100.000 tokens de información, mientras que ChatGPT Plus, impulsado por el LLM GPT-4, maneja 8.192 tokens". Esta diferencia en la capacidad de procesamiento de tokens destaca la ventaja que tienen los modelos de Claude en el manejo de entradas contextuales extensas, lo cual es crucial para una experiencia de usuario matizada y enriquecida.

Además, al manejar indicaciones largas, Claude 2 ha demostrado superioridad sobre GPT, manejando indicaciones de mayor magnitud de manera más eficiente. Sin embargo, cuando las indicaciones son comparables, Claude 1 y Claude Instant proporcionan resultados similares o ligeramente mejores que GPT-3.5, lo que muestra la naturaleza competitiva de estos modelos. Con las capacidades de contexto de Claude, una respuesta inicial deficiente puede mejorar drásticamente con una indicación más refinada, más grande y más detallada.

AD

Los modelos de código abierto no se quedan atrás en esta carrera.

WizardLM, un modelo entrenado en Meta's LlaMA-2 con 70 mil millones de parámetros, destaca como el mejor LLM de código abierto. Le siguen de cerca Vicuna 33B y el LlaMA-2 original, lanzado por Meta.

Los modelos de código abierto juegan un papel importante en el desarrollo del espacio de la IA por diferentes razones. Se pueden ejecutar localmente, lo que brinda a los usuarios la oportunidad de ajustarlos y compromete a la comunidad en un esfuerzo colectivo para perfeccionar el modelo. También son más baratos de ejecutar debido a sus licencias, por lo que el espacio tiene docenas de LLMs de código abierto y solo unos pocos modelos propietarios.

Pero el juego de los chatbots de IA no se trata solo de números. Se trata de implicaciones del mundo real.

A medida que los chatbots se vuelven indispensables en diversos sectores, desde el servicio al cliente hasta los asistentes personales, su eficacia, adaptabilidad y precisión se vuelven primordiales. Con los modelos de Claude clasificándose por encima de GPT-3.5, las empresas y los usuarios individuales podrían encontrarse en una encrucijada, evaluando qué modelo se alinea mejor con sus necesidades. Decrypt ha publicado dos guías detalladas para ayudarte a decidir qué modelo te conviene más.

Para los no iniciados, esto podría parecer simplemente otra actualización de la tabla de clasificación. Pero para aquellos que siguen de cerca la industria de la IA, es un testimonio de lo feroz que es la competencia y de lo rápidamente que pueden cambiar las tornas. Y en cuanto al resto de nosotros que nos encontramos entre esos dos campos, es un recordatorio de que en el mundo de la IA, el modelo más popular de hoy podría caer ante el más eficiente.

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.