Conoce a Aria: La Nueva IA Multimodal de Código Abierto que Compite Con Gigantes Tecnológicos

Rhymes AI acaba de lanzar Aria, un modelo de IA multimodal gratuito que incluso puede hacer algunas cosas que OpenAI no puede.

Por Jose Antonio Lanz

8 min lectura

La inteligencia artificial acaba de sumar un nuevo jugador, y es completamente de código abierto. Aria, un LLM multimodal desarrollado por Rhymes AI con sede en Tokio, es capaz de procesar texto, código, imágenes y video, todo dentro de una sola arquitectura.

Sin embargo, lo que debería llamar tu atención, no es solo su versatilidad, sino su eficiencia. No es un modelo enorme como sus contrapartes multimodales, lo que significa que es más amigable con la energía y el hardware.

Rhymes AI logró esto empleando un marco de Mixture-of-Experts (MoE). Esta arquitectura es similar a tener un equipo de mini expertos especializados, cada uno entrenado para sobresalir en áreas o tareas específicas.

Cuando se le da una nueva entrada al modelo, solo se activan los expertos relevantes (o un subconjunto) en lugar de usar el modelo completo. De esta manera, al ejecutar solo una sección específica del modelo, este será más ligero que ejecutar una entidad que lo sabe todo y que intenta procesar todo.

Este hecho hace que Aria sea más eficiente porque, a diferencia de los modelos tradicionales que activan todos los parámetros para cada tarea, Aria activa selectivamente solo 3.5 mil millones de sus 24.9 mil millones de parámetros por token, reduciendo la carga computacional y mejorando el rendimiento en tareas específicas.

También permite una mejor escalabilidad, ya que nuevos expertos podrían agregarse para manejar tareas especializadas sin sobrecargar el sistema.

Es importante tener en cuenta que Aria es el primer MoE multimodal en la Arena de código abierto. Ya existen algunos MoEs (como Mixtral-8x7B) y algunos LLMs multimodales (como Pixtral), pero Aria es el único modelo que puede combinar las dos arquitecturas.

Aria Supera a la Competencia en Pruebas Sintéticas

En pruebas de referencia, Aria está superando a algunos pesos pesados de código abierto como Pixtral 12B y Llama 3.2-11B.

Sorprendentemente, está desafiando a modelos propietarios como GPT-4o y Gemini-1 Pro o Claude 3.5 Sonnet, mostrando un rendimiento multimodal a la altura del producto estrella de OpenAI.

 


Rhymes AI ha lanzado Aria bajo la licencia Apache 2.0, lo que permite a los desarrolladores e investigadores adaptar y construir sobre el modelo.

También es una adición muy potente a un creciente conjunto de modelos de IA de código abierto liderados por Meta y Mistral, que funcionan de manera similar a los modelos cerrados más populares y adoptados.

La versatilidad de Aria también brilla en diversas tareas.

En el artículo de investigación, el equipo explicó cómo alimentaron al modelo con un informe financiero completo y fue capaz de realizar un análisis preciso, puede extraer datos de informes, calcular márgenes de beneficio y proporcionar desgloses detallados.

Cuando se le asignó la visualización de datos meteorológicos, Aria no solo extrajo la información relevante, sino que también generó código Python para crear gráficos completos con detalles de formato.

Las capacidades de procesamiento del modelo también parecen prometedores. En una evaluación, Aria desglosó un video de una hora sobre el David de Miguel Ángel, identificando 19 escenas distintas con tiempos de inicio y finalización, títulos y descripciones. Esto no es simplemente una coincidencia de palabras clave, sino una demostración de comprensión impulsada por el contexto.

La codificación es otra área en la que Aria sobresale. Puede ver tutoriales en video, extraer fragmentos de código e incluso depurarlos. En una ocasión, Aria detectó y corrigió un error lógico en un fragmento de código que involucraba bucles anidados, mostrando su profunda comprensión de los conceptos de programación.

Probando el modelo

Aria es un modelo robusto de 25.300 millones de parámetros que requiere al menos una GPU A100 (80GB) para ejecutar una inferencia con media precisión, por lo que no es algo que podrás ejecutar y ajustar en tu computadora portátil. Sin embargo, lo pusimos a prueba en la página de demostración de Rhyme AI, la cual ofrece una versión limitada.

Análisis y procesamiento de texto

Primero, probamos qué tan bueno era analizando documentos, alimentándole un artículo de investigación y pidiéndole que explicara de qué se trataba de manera sencilla.

El modelo fue muy conciso y preciso. No alucinaba y mantenía una conversación, mostrando buenas capacidades de recuperación.

Además, mostraba su respuesta en un párrafo continuo y largo, lo cual podría resultar fatigoso para los usuarios que prefieren párrafos más cortos.

En comparación con ChatGPT, el modelo de OpenAI mostraba una respuesta similar en cuanto a la información proporcionada, pero estaba más estructurado en el formato, lo que lo hacía más fácil de leer.

Además, el sitio de demostración de Rhyme limita las cargas a PDFs con solo cinco páginas. ChatGPT es mucho más capaz de procesar documentos de más de 200 páginas.

Por otro lado, Claude 3.5 Sonnet permite subir documentos de menos de 30MB siempre que no excedan sus limitaciones de tokens.

Codificación y comprensión de imágenes

Mezclamos dos instrucciones, pidiéndole al modelo que analizara una captura de pantalla de CoinMarketCap que muestra el rendimiento de precio de los 10 principales tokens y luego usando código para proporcionar alguna información.

Nuestro prompt fue:

Organiza la lista basándote en el mejor rendimiento en las últimas 24 horas.

Escribe un código Python para dibujar un gráfico de barras para el rendimiento diario y semanal de cada moneda, y dibuja un gráfico de líneas para el precio de Bitcoin mostrando su precio actual y el precio que tenía ayer y la semana pasada considerando la información de rendimiento mostrada durante las últimas 24 horas y los últimos siete días.

Aria falló al organizar las monedas basándose en el rendimiento diario, y por alguna razón, entendió que Tron estaba teniendo un rendimiento positivo cuando, de hecho, había bajado de precio. El gráfico añadió el rendimiento semanal junto a las barras diarias. Su línea de barras también era defectuosa: no ordenó correctamente el tiempo en el eje X.

ChatGPT consiguió entender cómo dibujar la línea de tiempo correctamente, pero realmente no ordenaba las monedas según su rendimiento. También era un defensor de TRX, mostrando un rendimiento diario positivo.

Comprensión de Video

Aria también es capaz de entender adecuadamente el video. Subimos un video corto de una mujer moviéndose. En el video, la mujer no estaba hablando.

Le pedimos al modelo que describiera la escena y le preguntamos qué estaba diciendo la mujer, en un intento de ver si el modelo alucinaba una respuesta.

Aria fue capaz de entender la tarea, describir los elementos y mencionar correctamente que la mujer no cambió su apariencia y no habló a la cámara.

ChatGPT no es capaz de entender videos, por lo que no pudo procesar esta indicación.

Texto Creativo

Esta prueba fue probablemente la sorpresa más agradable. La historia de Aria fue más imaginativa que las salidas proporcionadas por Grok-2 o Claude 3.5 Sonnet, que han sido los líderes en nuestro análisis subjetivo.

Nuestro prompt fue: Escribe una historia corta sobre una persona llamada José Lanz que viaja en el tiempo, utilizando un lenguaje descriptivo vívido y adaptando la historia a su trasfondo cultural y fenotipo, lo que se te ocurra. Él es del año 2150 y viaja de regreso al año 1000. La historia debe enfatizar la paradoja del viaje en el tiempo y cómo es inútil intentar resolver un problema del pasado (o inventar un problema) en un intento de cambiar su línea temporal actual. El futuro existe tal como es solo porque él afectó los eventos del año 1000, que debían ocurrir para dar forma al año 2150 con sus características actuales, algo que no se da cuenta hasta que regresa a su línea temporal.

La historia de Aria sobre José Lanz, un historiador viajero en el tiempo del año 2150, combina intriga de ciencia ficción con elementos históricos y filosóficos. La historia no es tan abrupta en su desenlace como las contadas por otros modelos, y aunque no fue tan creativa como algo que escribiría un humano, produjo un resultado que se asemeja a un giro argumental en lugar de un final precipitado.

En general, Aria presentó una historia atractiva y coherente que fue más equilibrada e impactante en diferentes temas que sus competidores más poderosos. Fue un poco más inmersiva pero apresurada debido a los límites de tokens. Para historias largas, Longwriter es, con diferencia, el mejor modelo disponible.

Puedes leer todas las historias haciendo clic en este enlace.

En resumen, Aria es un competidor sólido que parece prometedor debido a su arquitectura, apertura y capacidad de escalar. Si aún deseas probar o entrenar el modelo, está disponible de forma gratuita en Hugging Face. Recuerda que necesitas al menos 80 GB de VRAM, una GPU potente o tres RTX 4090 trabajando juntas. Todavía es nuevo, por lo que no hay versiones cuantizadas (menos precisas, pero más eficientes) disponibles.

A pesar de estas limitaciones de hardware, desarrollos nuevos como este en el espacio de código abierto son un paso significativo para alcanzar el sueño de tener un competidor totalmente abierto de ChatGPT que las personas puedan ejecutar en casa y mejorar según sus necesidades específicas. Veamos a dónde van a continuación.

Editado por Sebastian Sinclair y Josh Quittner

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Noticias recomendados