6 min lectura
Alibaba acaba de lanzar su actualización de IA más ambiciosa hasta la fecha.
El equipo Qwen de la compañía lanzó el domingo Qwen 3.5 Omni, una nueva versión de su IA "omnimodal" que procesa simultáneamente texto, imágenes, audio y video, y responde en tiempo real en 36 idiomas, posicionando su modelo en el mismo terreno que los modelos fundacionales de IA de última generación disponibles actualmente.
"Omni" no es solo una palabra de marketing. La mayoría de los modelos de IA con los que interactúas son principalmente sistemas de texto de entrada y salida. Algunos procesan imágenes, otros manejan voz. Qwen 3.5 Omni los gestiona todos de forma nativa, al mismo tiempo, sin necesidad de convertir todo a texto a través de herramientas de terceros.
El nuevo modelo viene en tres tamaños —Plus, Flash y Light— todos compatibles con una ventana de contexto de 256.000 tokens, reducida para los estándares actuales. Fue entrenado con más de 100 millones de horas de datos audiovisuales, una escala que lo coloca en una categoría diferente a la de la mayoría de sus competidores.
Qwen 3.5 Omni es una evolución de Qwen 3 Omni Flash, el modelo omnimodal anterior de Alibaba lanzado en diciembre de 2025. Esa versión ya había impresionado con su capacidad para procesar video y audio simultáneamente —podía manejar instrucciones de edición de imágenes combinando múltiples entradas visuales de formas que sus competidores no podían— y transmitía respuestas de voz con una latencia de apenas 234 milisegundos.
También fue el primer modelo en intentar una alternativa a NotebookLM de Google. Logró algo, aunque la calidad no estuvo a la altura de la propuesta de Google.
Qwen 3.5 Omni toma todo eso y añade una ventana de contexto más amplia, mejor razonamiento, una biblioteca de idiomas mucho más extensa y un conjunto de funciones de interacción en tiempo real que la generación anterior no tenía.
La mejora más destacada ocurre cuando realmente le hablas. Qwen 3.5 Omni ahora admite interrupción semántica: puede distinguir entre que digas "ajá" a mitad de una oración y que realmente quieras intervenir, por lo que no se detiene cada vez que alguien tose de fondo, lo que hace que la interacción hablada sea más fluida.
Una nueva técnica llamada ARIA, abreviatura de Adaptive Rate Interleave Alignment, también resuelve un problema sutil pero persistente: los sistemas de IA que distorsionan números o palabras inusuales al leer en voz alta. ARIA sincroniza dinámicamente el texto y el habla para mantener la salida natural y precisa.
Luego está la clonación de voz. Los usuarios pueden subir una muestra de voz y hacer que el modelo adopte esa voz en sus respuestas, una función que coloca a Qwen en competencia directa con ElevenLabs y otras herramientas de voz dedicadas. Sin embargo, no pudimos acceder a esta función, ya que por ahora solo está disponible a través de la API.
En los benchmarks de estabilidad de voz multilingüe, Qwen 3.5 Omni Plus superó a ElevenLabs, GPT-Audio y Minimax en 20 idiomas. El modelo también admite ahora búsqueda web en tiempo real, lo que significa que puede responder preguntas sobre noticias de última hora o datos de mercado en vivo sin pretender que ya los conoce.
El equipo también destaca lo que llaman "Audio-Visual Vibe Coding": el modelo puede ver una grabación de pantalla o video de una tarea de programación y escribir código funcional basándose únicamente en lo que ve y escucha, sin necesidad de un prompt de texto. Es un pequeño adelanto de cómo los asistentes de IA podrían eventualmente operar dentro de tu flujo de trabajo en lugar de hacerlo a su lado.
Para entender qué significa "omnimodal" en la práctica, realizamos una prueba rápida: le enviamos tanto a Qwen 3.5 Omni como a ChatGPT 5.4 en modo "thinking" el mismo YouTube Short —un clip del presidente de Dastan (Dastan es la empresa matriz de Decrypt) y el comentarista Farokh discutiendo noticias de último momento. Qwen 3.5 Omni procesó el video de forma nativa y devolvió un análisis completo en aproximadamente un minuto: quién hablaba, qué discutían y un comentario sustancial sobre el tema basado en su propio conocimiento del área.
ChatGPT 5.4, que no es omnimodal, tuvo que arreglárselas con lo que tenía. Extrajo fotogramas del video, los procesó con un modelo de visión, usó Whisper para transcribir el audio y aplicó una herramienta de OCR para leer los subtítulos integrados —tres procesos separados unidos para aproximarse a lo que Qwen 3.5 Omni hace en un solo paso. El resultado tardó nueve minutos, y eso en condiciones ideales: un video bien iluminado con audio limpio y subtítulos quemados. El contenido del mundo real rara vez ofrece los tres.
En nuestras pruebas rápidas con múltiples entradas, el modelo también procesó prompts en español, portugués e inglés sin problemas, cambiando de idioma a mitad de conversación sin perder el contexto.
En los benchmarks estándar, Qwen 3.5 Omni Plus superó a Gemini 3.1 Pro en comprensión general de audio, razonamiento y tareas de traducción, e igualó su desempeño en comprensión audiovisual. El reconocimiento de voz ahora abarca 113 idiomas y dialectos, frente a los 19 de la generación anterior.
Este es el segundo gran lanzamiento de IA de Alibaba en seis semanas. En febrero, presentó Qwen 3.5, un modelo de texto y visión que igualó o superó a los modelos frontier en benchmarks de razonamiento y programación —parte de una racha que también ha incluido Qwen Deep Research y una serie de herramientas que rivalizan con OpenAI y Google. Qwen 3.5 Omni extiende ese impulso hacia el territorio multimodal completo, en un momento en que todos los grandes laboratorios de IA compiten por construir sistemas que manejen todo el espectro de la comunicación humana, no solo palabras en una pantalla.
El modelo ya está disponible a través de la API de Alibaba Cloud y puede probarse directamente en Qwen Chat o a través de la demo en línea de Hugging Face.
Decrypt-a-cookie
This website or its third-party tools use cookies. Cookie policy By clicking the accept button, you agree to the use of cookies.