Modelo de IA de China Presume Tener el Doble de Capacidad Que ChatGPT

La serie Yi da un gran salto sobre sus competidores estadounidenses, al menos según algunas métricas.

Por Jose Antonio Lanz

Nov 16, 2023

4 min lectura

Image: Ivan Marc/Shutterstock

En Resumen

El modelo de inteligencia artificial Yi, desarrollado en China, supera a modelos populares como Claude y GPT-4 Turbo con una capacidad de manejar hasta 200.000 tokens de contexto.
La Serie Yi, creada por Beijing Lingyi Wanwu Information Technology Company, se ha vuelto el segundo modelo de código abierto más popular en Hugging Face poco después de su lanzamiento.
Aunque el modelo Yi muestra eficiencia y precisión al manejar grandes contextos, se ha señalado que puede tener dificultades para recuperar información precisa cuando la indicación ocupa más del 65% de su capacidad.

Un modelo de inteligencia artificial (IA) desarrollado en China está causando sensación en varios aspectos, incluyendo su naturaleza de código abierto y su capacidad para manejar hasta 200.000 tokens de contexto, superando ampliamente a otros modelos populares como Claude de Anthropic (100.000 tokens) o GPT-4 Turbo de OpenAI (128.000 tokens).

Conocida como la serie Yi, la empresa Beijing Lingyi Wanwu Information Technology Company creó este chatbot generativo progresivo en su laboratorio de IA, 01.AI. El modelo de lenguaje grande o Large Language Model (LLM) viene en dos versiones: el Yi-6B-200K liviano y el Yi-34B-200K más robusto, ambos capaces de retener un inmenso contexto conversacional y de comprender inglés y mandarín.

Tan solo horas después de su lanzamiento, el modelo Yi se disparó en las listas y se convirtió en el segundo modelo de código abierto más popular en Hugging Face, un repositorio clave para modelos de IA.

Clasificación de modelos de IA de Hugging Face — Imagen: Hugging Face

Aunque los modelos Yi manejan grandes contextos, también son muy eficientes y precisos, superando a otros LLM en varias pruebas sintéticas.

"Yi-34B supera a modelos mucho más grandes como LLaMA2-70B y Falcon-180B; además, el tamaño de Yi-34B puede soportar aplicaciones de manera rentable, lo que permite a los desarrolladores construir proyectos fantásticos", explica 01.AI en su sitio web. Según una tabla compartida por los desarrolladores, el modelo Yi más potente mostró un rendimiento sólido en comprensión de lectura, razonamiento de sentido común y pruebas de IA comunes como Gaokao y C-eval.

Los LLMs como la Serie Yi operan analizando y generando salidas basadas en el lenguaje. Funcionan procesando "tokens", o unidades de texto, que pueden ser tan pequeñas como una palabra o una parte de una palabra.

Decir "200.000 tokens de contexto" significa efectivamente que el modelo puede entender y responder a indicaciones significativamente más largas, que anteriormente hubieran abrumado incluso a los LLMs más avanzados. La Serie Yi puede manejar indicaciones extensas que incluyen información más compleja y detallada sin colapsar.

Sin embargo, un análisis reciente de terceros señala una limitación en esta área. Cuando una indicación ocupa más del 65% de la capacidad del modelo Yi, puede tener dificultades para recuperar información precisa. A pesar de esto, si el tamaño de la indicación se mantiene por debajo de este umbral, el Modelo de la Serie Yi funciona admirablemente, incluso en escenarios que causan degradación en modelos como Claude y ChatGPT.

Pressure Testing GPT-4-128K With Long Context Recall

128K tokens of context is awesome - but what's performance like?

I wanted to find out so I did a “needle in a haystack” analysis

Some expected (and unexpected) results

Here's what I found:

Findings:
* GPT-4’s recall… pic.twitter.com/nHMokmfhW5

— Greg Kamradt (@GregKamradt) November 8, 2023

Un diferenciador clave para Yi es que es completamente de código abierto, lo que permite a los usuarios ejecutar Yi localmente en sus propios sistemas. Esto les otorga un mayor control, la capacidad de modificar la arquitectura del modelo y evita depender de servidores externos.

"Predecimos que la IA 2.0 creará una oportunidad de plataforma diez veces más grande que Internet móvil, reescribiendo todo el software y las interfaces de usuario", afirma 01.AI. "Esta tendencia dará lugar a la próxima ola de aplicaciones basadas en IA y modelos de negocio potenciados por IA, fomentando las innovaciones de la IA 2.0 con el tiempo".

Al abrir el código de un modelo tan capaz, 01.AI capacita a los desarrolladores de todo el mundo para construir la próxima generación de IA. Con un manejo inmenso de contexto en un paquete personalizable, podemos esperar una avalancha de aplicaciones innovadoras que utilicen Yi.

El potencial es enorme para modelos de código abierto como Yi-6B-200K y Yi-34B-200K. A medida que la IA se infiltra en nuestras vidas, los sistemas ejecutados localmente prometen una mayor transparencia, seguridad y capacidad de personalización en comparación con las alternativas cerradas que dependen de la nube.

Mientras Claude y GPT-4 Turbo acaparan titulares, esta nueva alternativa de código abierto podría construir la próxima etapa de la IA directamente en los dispositivos de los usuarios.

Justo cuando parecía que no quedaban formas de mejorar nuestro hardware, podría ser el momento de buscar un dispositivo más poderoso antes de que tu IA local sea superada por un competidor más "consciente del contexto".

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.

Coin Prices