NExT-GPT la Herramienta Que Permite Dominar la IA Con Audio, Video y Texto: ¿Mejor Que ChatGPT?

La nueva herramienta podría superar a los gigantes de la inteligencia artificial, compitiendo con herramientas visuales como Gemini de Google y ChatGPT-Vision de OpenAI.

Por Jose Antonio Lanz

Sep 27, 2023

4 min lectura

Image created by Decrypt using AI

En Resumen

NExT-GPT, un LLM de código abierto que compite en la carrera tecnológica de la IA.
NExT-GPT procesa texto, imágenes, audio y video, permitiendo interacciones más naturales.
NExT-GPT democratiza el acceso a la IA, permitiendo a la comunidad dar forma a la tecnología.

En una escena tecnológica en crecimiento dominada por gigantes como OpenAI y Google, NExT-GPT, un modelo de lenguaje grande o Large Language Model (LLM) de código abierto, podría tener lo necesario para competir en las grandes ligas.

ChatGPT causó sensación en el mundo con su capacidad para entender consultas en lenguaje natural y generar respuestas similares a las humanas. Pero a medida que la IA continúa avanzando a gran velocidad, las personas han exigido más potencia. La era del texto puro ya ha terminado y los LLM multimodales están llegando.

Desarrollado a través de una colaboración entre la Universidad Nacional de Singapur (NUS) y la Universidad Tsinghua, NExT-GPT puede procesar y generar combinaciones de texto, imágenes, audio y video. Esto permite interacciones más naturales que los modelos de solo texto, como la herramienta básica de ChatGPT.

El equipo que lo creó presenta a NExT-GPT como un sistema "de cualquier modalidad a cualquier modalidad", lo que significa que puede aceptar entradas en cualquier modalidad y entregar respuestas en la forma adecuada.

El potencial de avance rápido es enorme. Como modelo de código abierto, NExT-GPT puede ser modificado por los usuarios para adaptarse a sus necesidades específicas. Esto podría llevar a mejoras dramáticas más allá de lo original, al igual que sucedió con Stable Diffusion en comparación con su lanzamiento inicial. La democratización del acceso permite a los creadores dar forma a la tecnología para lograr el máximo impacto.

Entonces, ¿cómo funciona NExT-GPT? Como se explica en el artículo de investigación del modelo, el sistema tiene módulos separados para codificar entradas como imágenes y audio en representaciones similares a texto que el modelo de lenguaje central puede procesar.

Los investigadores introdujeron una técnica llamada "ajuste de instrucciones de cambio de modalidad" para mejorar las habilidades de razonamiento entre modalidades, es decir, su capacidad para procesar diferentes tipos de entradas como una estructura coherente. Este ajuste enseña al modelo a cambiar sin problemas entre modalidades durante las conversaciones.

Para manejar las entradas, NExT-GPT utiliza tokens únicos, para imágenes, audio y video. Cada tipo de entrada se convierte en embedding o encaje léxico que el modelo de lenguaje comprende. El modelo de lenguaje puede generar texto de respuesta, así como tokens de señal especiales para activar la generación en otras modalidades.

Un token en la respuesta indica al decodificador de video que produzca una salida de video correspondiente, por ejemplo.La implementación de tokens personalizados para cada modalidad de entrada y salida facilita una conversión versátil entre diversos tipos de datos.

Luego, el modelo de lenguaje genera tokens especiales para indicar cuándo se deben generar salidas no textuales, como imágenes. De tal manera que, diferentes decodificadores crean salidas para cada modalidad: Stable Diffusion funciona como decodificador de imágenes, AudioLDM como decodificador de audio y Zeroscope como decodificador de video. También utiliza Vicuna como el LLM base e ImageBind para codificar las entradas.

NExT-GPT es esencialmente un modelo que combina el poder de diferentes IA para convertirse en una especie de super IA todo en uno.

Captura de pantalla cortesía de: AI Papers Academy a través de YouTube

NExT-GPT logra esta conversión flexible "de cualquiera a cualquiera" mientras solo entrena el 1% de los parámetros totales. El resto de los parámetros son módulos preentrenados, lo que ha otorgado elogios de los investigadores por tener un diseño muy eficiente.

Se ha creado un sitio de demostración para permitir que las personas puedan probar NExT-GPT, pero su disponibilidad es intermitente.

Con gigantes tecnológicos como Google y OpenAI lanzando sus propios productos de IA multimodal, NExT-GPT representa una alternativa de código abierto para que los creadores desarrollen.

La multimodalidad es clave para las interacciones naturales. Y al abrir el código de NExT-GPT, los investigadores están proporcionando un trampolín para que la comunidad lleve la IA al siguiente nivel.

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.

Artificial Intelligence

The latest artificial intelligence news, in-depth features, explainers, and analysis, spanning from generative to transformational technology and beyond.

ColecciónÚltima actualización Jun 24, 2025

Firma de Infraestructura de IA Gradient, Obtiene $10 Millones Para Desarrollar Protocolos en Solana
Gradient Network cerró una ronda de financiación semilla de $10 millones para construir lo que denomina una pila de infraestructura de IA descentralizada, con las firmas de capital de riesgo Pantera Capital y Multicoin Capital liderando la inversión junto a HSG (anteriormente Sequoia Capital China). La startup con sede en Singapur planea usar los fondos para desarrollar dos protocolos centrales—Lattica y Parallax—que permitirían que los modelos de inteligencia artificial funcionen a través de un...
NoticiasArtificial Intelligence
4 min lectura
Jose Antonio LanzJun 20, 2025
Create an account to save your articles.
Cómo Hacer Que tu Chatbot de IA Hable Sucio
Los personajes finalmente se encontraban solos. La luz de la luna se filtraba por la ventana. Los corazones latían rápido. Y entonces... el chatbot decidió que era el momento perfecto para discutir técnicas de respiración consciente. "¡Como... NO. Eso no era a lo que estábamos llegando", se quejó un escritor de erótica en Reddit. "Estoy tratando de escribir un romance apasionado, no un libro de autoayuda sobre la respiración consciente. Cada vez que la historia está a punto de volverse física, l...
NoticiasMonedas
8 min lectura
Jose Antonio LanzJun 19, 2025
Create an account to save your articles.
xAI de Elon Musk Busca $4.300 Millones en Financiamiento Fresco: Bloomberg
La startup de inteligencia artificial de Elon Musk, xAI, está buscando $4.300 millones en nueva financiación de capital, según reportó Bloomberg, lo que indica un fuerte impulso de expansión para la empresa. La última financiación se suma a un plan separado de $5.000 millones en financiamiento de deuda anunciado a principios de este mes. Las recaudaciones subrayan el renovado enfoque de Musk en desarrollar sus empresas de inteligencia artificial después de abandonar en mayo la administración Tru...
NoticiasArtificial Intelligence
3 min lectura
Jason NelsonJun 18, 2025
Create an account to save your articles.

Coin Prices