En Resumen

  • El modelo Claude 3 Opus de Anthropic ha superado a ChatGPT Plus como el líder en el ranking de Chatbot Arena.
  • Chatbot Arena utiliza una metodología subjetiva, basada en preferencias de usuarios, para clasificar modelos de lenguaje sin etiquetar.
  • La capacidad de contexto y recuperación de Claude 3 Opus lo destaca frente a otros modelos, incluido GPT-4 Turbo de OpenAI.

Mientras ChatGPT de Open AI disfruta de la mayor cuota de mercado en mente de todos las herramientas de IA generativa, su puesto principal ha sido robado por el tope de gama Claude 3 Opus del contendiente del momento Anthropic en un popular ranking de líderes de IA utilizado por investigadores de IA.

La ascensión de Claude en las clasificaciones de Chatbot Arena marca la primera vez que el GPT-4 de OpenAI, que da vida a ChatGPT Plus, ha sido destronado desde que apareció por primera vez en el tablero de líderes en mayo del año pasado.

Chatbot Arena es administrado por Large Model Systems Organization (LMSYS ORG), una organización de investigación dedicada a modelos abiertos que apoyan la colaboración entre estudiantes y profesores de la Universidad de California, Berkeley, UC San Diego y la Universidad Carnegie Mellon. La plataforma presenta a los usuarios dos modelos de lenguaje sin etiquetar y les pide que califiquen cuál de ellos se desempeña mejor según los criterios que consideren adecuados.

Después de agregar miles de comparaciones subjetivas, Chatbot Arena calcula los "mejores" modelos para el tablero de líderes, actualizándolo con el tiempo.

Esa aproximación subjetiva, basada en los gustos personales dispares de los participantes, es lo que distingue a Chatbot Arena de otros clasificadores de referencia de IA. Los entrenadores de modelos no pueden "hacer trampa" adaptando sus modelos para vencer al algoritmo, como podrían hacer con puntos de referencia cuantitativos. Al medir simplemente lo que la gente prefiere, Chatbot Arena es un recurso valioso y cualitativo para los investigadores de IA.

La plataforma recopila la retroalimentación de los usuarios y la procesa a través del modelo estadístico de Bradley-Terry para predecir la probabilidad de que un modelo en particular supere a otros en competencia directa. Este enfoque permite la generación de estadísticas completas, incluidos los intervalos de confianza para las estimaciones de la calificación Elo, la misma técnica utilizada para medir la habilidad de los jugadores de ajedrez.

Los 10 mejores LLM clasificados por la Arena de Chatbots. Imagen: Huggingface
Los 10 mejores LLM clasificados por Chatbot Arena. Imagen: Huggingface

La ascensión de Claude 3 Opus al primer lugar no es el único desarrollo significativo en la tabla de clasificación. Claude 3 Sonnet (el modelo de tamaño mediano disponible de forma gratuita) y Claude 3 Haiku (un modelo más pequeño y rápido), también desarrollados por Anthropic, ocupan actualmente el 4to y 6to lugar, respectivamente.

La tabla de clasificación incluye diferentes versiones de GPT-4, como GPT-4-0314 (la versión "original" de GPT-4 de marzo de 2023), GPT-4-0613, GPT-4-1106-preview y GPT-4-0125-preview (el último modelo GPT-4 Turbo disponible a través de la API desde enero de 2024). Según la clasificación, Sonnet y Haiku son mejores que el GPT-4 original, con Sonnet superando también a una versión modificada lanzada por OpenAI en junio de 2023.

Esto también significa que, lamentablemente, solo hay un LLM de código abierto actualmente en el top 10: Qwen, con Starling 7b y Mixtral 8x7B destacan como los únicos otros modelos abiertos en el top 20.

Una de las ventajas de Claude sobre GPT-4 es su capacidad de contexto de tokens y capacidad de recuperación. La versión pública de Claude 3 Opus maneja más de 200K tokens—y la organización afirma tener una versión restringida capaz de manejar 1 millón de tokens con tasas de recuperación casi perfectas. Esto significa que Claude puede entender indicaciones más largas y retener información de manera más efectiva en comparación con GPT-4 Turbo, que maneja 128K tokens y pierde sus capacidades de recuperación con indicaciones largas.

Precisión de recuperación de Claude 3 Opus vs GPT-4 Turbo. Imagen de Decrypt utilizando datos de Anthropic y Greg Kamradt
Precisión de recuperación de Claude 3 Opus vs GPT-4 Turbo. Imagen de Decrypt utilizando datos de Anthropic y Greg Kamradt.

Gemini Advanced de Google también ha estado ganando terreno en el espacio de asistentes de inteligencia artificial. La empresa ofrece un plan que incluye 2TB de almacenamiento y capacidades de IA en la suite de productos de Google por el mismo precio que una suscripción a Chat GPT Plus ($20 al mes).

El modelo Gemini Pro gratuito actualmente ocupa el cuarto lugar, entre GPT-4 Turbo y Claude 3 Sonnet. El modelo Gemini Ultra de gama alta no está disponible para pruebas y aún no aparece en las clasificaciones.

Editado por Ryan Ozawa.

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.