En Resumen
- NExT-GPT, un LLM de código abierto que compite en la carrera tecnológica de la IA.
- NExT-GPT procesa texto, imágenes, audio y video, permitiendo interacciones más naturales.
- NExT-GPT democratiza el acceso a la IA, permitiendo a la comunidad dar forma a la tecnología.
En una escena tecnológica en crecimiento dominada por gigantes como OpenAI y Google, NExT-GPT, un modelo de lenguaje grande o Large Language Model (LLM) de código abierto, podría tener lo necesario para competir en las grandes ligas.
ChatGPT causó sensación en el mundo con su capacidad para entender consultas en lenguaje natural y generar respuestas similares a las humanas. Pero a medida que la IA continúa avanzando a gran velocidad, las personas han exigido más potencia. La era del texto puro ya ha terminado y los LLM multimodales están llegando.
Desarrollado a través de una colaboración entre la Universidad Nacional de Singapur (NUS) y la Universidad Tsinghua, NExT-GPT puede procesar y generar combinaciones de texto, imágenes, audio y video. Esto permite interacciones más naturales que los modelos de solo texto, como la herramienta básica de ChatGPT.
El equipo que lo creó presenta a NExT-GPT como un sistema "de cualquier modalidad a cualquier modalidad", lo que significa que puede aceptar entradas en cualquier modalidad y entregar respuestas en la forma adecuada.
El potencial de avance rápido es enorme. Como modelo de código abierto, NExT-GPT puede ser modificado por los usuarios para adaptarse a sus necesidades específicas. Esto podría llevar a mejoras dramáticas más allá de lo original, al igual que sucedió con Stable Diffusion en comparación con su lanzamiento inicial. La democratización del acceso permite a los creadores dar forma a la tecnología para lograr el máximo impacto.
Entonces, ¿cómo funciona NExT-GPT? Como se explica en el artículo de investigación del modelo, el sistema tiene módulos separados para codificar entradas como imágenes y audio en representaciones similares a texto que el modelo de lenguaje central puede procesar.
Los investigadores introdujeron una técnica llamada "ajuste de instrucciones de cambio de modalidad" para mejorar las habilidades de razonamiento entre modalidades, es decir, su capacidad para procesar diferentes tipos de entradas como una estructura coherente. Este ajuste enseña al modelo a cambiar sin problemas entre modalidades durante las conversaciones.
Para manejar las entradas, NExT-GPT utiliza tokens únicos, para imágenes, audio y video. Cada tipo de entrada se convierte en embedding o encaje léxico que el modelo de lenguaje comprende. El modelo de lenguaje puede generar texto de respuesta, así como tokens de señal especiales para activar la generación en otras modalidades.
Un token en la respuesta indica al decodificador de video que produzca una salida de video correspondiente, por ejemplo.La implementación de tokens personalizados para cada modalidad de entrada y salida facilita una conversión versátil entre diversos tipos de datos.
Luego, el modelo de lenguaje genera tokens especiales para indicar cuándo se deben generar salidas no textuales, como imágenes. De tal manera que, diferentes decodificadores crean salidas para cada modalidad: Stable Diffusion funciona como decodificador de imágenes, AudioLDM como decodificador de audio y Zeroscope como decodificador de video. También utiliza Vicuna como el LLM base e ImageBind para codificar las entradas.
NExT-GPT es esencialmente un modelo que combina el poder de diferentes IA para convertirse en una especie de super IA todo en uno.
NExT-GPT logra esta conversión flexible "de cualquiera a cualquiera" mientras solo entrena el 1% de los parámetros totales. El resto de los parámetros son módulos preentrenados, lo que ha otorgado elogios de los investigadores por tener un diseño muy eficiente.
Se ha creado un sitio de demostración para permitir que las personas puedan probar NExT-GPT, pero su disponibilidad es intermitente.
Con gigantes tecnológicos como Google y OpenAI lanzando sus propios productos de IA multimodal, NExT-GPT representa una alternativa de código abierto para que los creadores desarrollen.
La multimodalidad es clave para las interacciones naturales. Y al abrir el código de NExT-GPT, los investigadores están proporcionando un trampolín para que la comunidad lleve la IA al siguiente nivel.