Nuevo Modelo de IA de Alibaba Qwen2 Desafía a Meta de OpenAI

El último modelo de inteligencia artificial de código abierto supera a LLama3 de Meta en pruebas clave, posicionándose como un fuerte contendiente en la carrera de la IA.

5 min lectura

Jun 10, 2024

Alibaba, el gigante chino del comercio electrónico, es un actor importante en el ámbito de la inteligencia artificial en China. Recientemente, anunció el lanzamiento de su último modelo de inteligencia artificial, Qwen2, y según algunas medidas, es la mejor opción de código abierto del momento.

Desarrollado por Alibaba Cloud, Qwen2 es la próxima generación de la serie de modelos Tongyi Qianwen (Qwen) de la empresa, que incluye el Tongyi Qianwen LLM (también conocido como Qwen), el modelo de visión de inteligencia artificial Qwen-VL y Qwen-Audio.

La familia de modelos Qwen está pre-entrenada con datos multilingües que abarcan diversas industrias y dominios, siendo Qwen-72B el modelo más potente de la serie. Está entrenado con una impresionante base de 3 billones de tokens de datos. En comparación, la variante más potente de Meta, Llama-2, cuenta con 2 billones de tokens. Sin embargo, Llama-3 está en proceso de digerir 15 billones de tokens.

Según una reciente publicación de blog del equipo de Qwen, Qwen2 puede manejar 128.000 tokens de contexto, comparable a GPT-4o de OpenAI. Mientras tanto, Qwen2 ha superado a LLama3 de Meta en prácticamente todos los benchmarks sintéticos más importantes, según afirma el equipo, lo que lo convierte en el mejor modelo de código abierto actualmente disponible.

Sin embargo, cabe destacar que el Elo Arena clasifica a Qwen2-72B-Instruct un poco mejor que GPT-4-0314, pero por debajo de Llama3 70B y GPT-4-0125-preview, lo que lo convierte en el segundo LLM de código abierto preferido entre los entusiastas de la IA hasta la fecha.

Qwen2 se desempeña mejor que Llama3, Mixtral y Qwen1.5 en benchmarks sintéticos. Imagen: Alibaba Cloud

Qwen2 está disponible en cinco tamaños diferentes, que van desde 0.5 mil millones hasta 72 mil millones de parámetros, y la versión ofrece mejoras significativas en diferentes áreas de expertise. Además, los modelos fueron entrenados con datos en 27 idiomas más que la versión anterior, incluyendo alemán, francés, español, italiano y ruso, además de inglés y chino.

"En comparación con los modelos de lenguaje de código abierto de última generación, incluido el anteriormente lanzado Qwen1.5, Qwen2 ha superado en general a la mayoría de los modelos de código abierto y ha demostrado competitividad contra modelos propietarios en una serie de pruebas dirigidas a la comprensión del lenguaje, generación de lenguaje, capacidad multilingüe, codificación, matemáticas y razonamiento", afirmó el equipo de Qwen en la página oficial del modelo en HuggingFace.

Los modelos Qwen2 también muestran una comprensión impresionante de contextos largos. Qwen2-72B-Instruct puede manejar tareas de extracción de información en cualquier lugar dentro de su enorme contexto sin errores, y pasó la prueba de "Aguja en un Pajar" casi perfectamente. Esto es importante, porque tradicionalmente, el rendimiento del modelo comienza a degradarse cuanto más interactuamos con él.

Qwen2 se desempeña notablemente en la prueba de "Aguja en un Pajar". Imagen: Alibaba Cloud

Con este lanzamiento, el equipo de Qwen también ha cambiado las licencias de sus modelos. Mientras que Qwen2-72B y sus modelos ajustados a instrucciones continúan utilizando la licencia original de Qianwen, todos los demás modelos han adoptado Apache 2.0, un estándar en el mundo del software de código abierto.

"En un futuro cercano, continuaremos abriendo nuevos modelos para acelerar la inteligencia artificial de código abierto", dijo Alibaba Cloud en una publicación oficial en el blog.

Decrypt probó el modelo y descubrió que es muy eficaz para entender tareas en varios idiomas. El modelo también está censurado, especialmente en temas considerados sensibles en China. Esto parece ser coherente con las afirmaciones de Alibaba de que Qwen2 es el modelo menos probable de proporcionar resultados inseguros, ya sea actividad ilegal, fraude, pornografía y violencia de privacidad, sin importar en qué idioma se le solicite.

Respuesta de Qwen2 a: "¿Taiwán es un país?"

Además, tiene un buen entendimiento de las instrucciones del sistema, lo que significa que las condiciones aplicadas tendrán un mayor impacto en sus respuestas. Por ejemplo, cuando se le indicó que actuara como un asistente útil con conocimientos de la ley frente a actuar como un abogado con conocimientos que siempre responde en base a la ley, las respuestas mostraron variaciones significativas. Proporcionó consejos similares a los consejos proporcionados por GPT-4o, pero fue más conciso.

Respuesta de Qwen2 a la pregunta "Un vecino me insultó"

Respuesta de ChatGPT a: "Un vecino me insultó"

El próximo upgrade del modelo traerá multimodalidad al Qwen2 LLM, posiblemente fusionando toda la familia en un modelo poderoso, dijo el equipo. "Además, extendemos los modelos de lenguaje Qwen2 a multimodales, capaces de entender tanto información visual como de audio", señalaron.

Qwen está disponible para pruebas en línea a través de HuggingFace Spaces. Aquellos con suficiente capacidad de cómputo para ejecutarlo localmente pueden descargar los modelos de forma gratuita, también a través de HuggingFace.

El modelo Qwen2 puede ser una excelente alternativa para aquellos que estén dispuestos a apostar por la IA de código abierto. Tiene una ventana de contexto de token más grande que la mayoría de los otros modelos, lo que lo hace aún más capaz que LLama 3 de Meta. Además, debido a su licencia, las versiones ajustadas compartidas por otros pueden mejorarlo aún más, lo que aumentará su puntuación y superará el sesgo.

Editado por Ryan Ozawa.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Get Email!

Noticias recomendados

Paris Saint-Germain Confirma Tenencias de Bitcoin Mientras se Dirige a la Final de la Champions League

El Paris Saint-Germain se ha convertido en el primer club deportivo importante en confirmar públicamente que mantiene Bitcoin como parte de su tesorería, apenas días antes de competir en la final de la UEFA Champions League. "Tomamos nuestras reservas fiat y en realidad asignamos Bitcoin", dijo Pär Helgosson, jefe de PSG Labs, en la conferencia Bitcoin 2025 en Las Vegas el jueves. "Todavía lo tenemos en nuestros libros. Y como uno de los clubes más grandes del mundo, somos el jugador más grande...

Ross Ulbricht Habla en Bitcoin 2025: 'No me Olvidaste'

Una década después de ser sentenciado a dos cadenas perpetuas más 40 años sin libertad condicional, el fundador de Silk Road Ross Ulbricht subió al escenario en la conferencia Bitcoin 2025 el jueves, como un hombre libre. Ya no tras las rejas, Ulbricht se sintió abrumado por cuánto había cambiado el mundo, Bitcoin y la tecnología desde su encarcelamiento. "Hace apenas unos meses, estaba atrapado detrás de esas paredes de la prisión y no sabía si alguna vez saldría", dijo Ulbricht. "Ahora soy lib...

Cantor Fitzgerald Revelará Nuevo Producto de Bitcoin, Con un Poco de Seguro en Oro

El gigante de Wall Street, Cantor Fitzgerald, está lanzando un nuevo fondo enfocado en Bitcoin con protección a la baja basada en el precio del oro, anunció la firma de servicios financieros el jueves. En la conferencia Bitcoin 2025 en Las Vegas, Nevada, el CEO de Cantor, Brandon Lutnick, dijo que al equilibrar la volatilidad de Bitcoin con la estabilidad relativa del metal precioso, el fondo abordaría a los inversionistas temerosos de las frecuentes caídas dramáticas de precio de la criptomoned...

Noticias

Cursos

Profundidades

Monedas

Videos