Qwen 3.5 Omni de Alibaba: El Modelo de IA que Puede Escuchar, Observar y Clonar tu Voz

Qwen3.5-Omni, la IA omnimodal de Alibaba, ahora maneja clonación de voz, audio de 10 horas, búsqueda web en tiempo real y supera a Gemini en benchmarks de audio, todo en un solo modelo.

6 min lectura

Mar 31, 2026

Alibaba acaba de lanzar su actualización de IA más ambiciosa hasta la fecha.

El equipo Qwen de la compañía lanzó el domingo Qwen 3.5 Omni, una nueva versión de su IA "omnimodal" que procesa simultáneamente texto, imágenes, audio y video, y responde en tiempo real en 36 idiomas, posicionando su modelo en el mismo terreno que los modelos fundacionales de IA de última generación disponibles actualmente.

"Omni" no es solo una palabra de marketing. La mayoría de los modelos de IA con los que interactúas son principalmente sistemas de texto de entrada y salida. Algunos procesan imágenes, otros manejan voz. Qwen 3.5 Omni los gestiona todos de forma nativa, al mismo tiempo, sin necesidad de convertir todo a texto a través de herramientas de terceros.

El nuevo modelo viene en tres tamaños —Plus, Flash y Light— todos compatibles con una ventana de contexto de 256.000 tokens, reducida para los estándares actuales. Fue entrenado con más de 100 millones de horas de datos audiovisuales, una escala que lo coloca en una categoría diferente a la de la mayoría de sus competidores.

Qwen 3.5 Omni es una evolución de Qwen 3 Omni Flash, el modelo omnimodal anterior de Alibaba lanzado en diciembre de 2025. Esa versión ya había impresionado con su capacidad para procesar video y audio simultáneamente —podía manejar instrucciones de edición de imágenes combinando múltiples entradas visuales de formas que sus competidores no podían— y transmitía respuestas de voz con una latencia de apenas 234 milisegundos.

También fue el primer modelo en intentar una alternativa a NotebookLM de Google. Logró algo, aunque la calidad no estuvo a la altura de la propuesta de Google.

Qwen 3.5 Omni toma todo eso y añade una ventana de contexto más amplia, mejor razonamiento, una biblioteca de idiomas mucho más extensa y un conjunto de funciones de interacción en tiempo real que la generación anterior no tenía.

La mejora más destacada ocurre cuando realmente le hablas. Qwen 3.5 Omni ahora admite interrupción semántica: puede distinguir entre que digas "ajá" a mitad de una oración y que realmente quieras intervenir, por lo que no se detiene cada vez que alguien tose de fondo, lo que hace que la interacción hablada sea más fluida.

Una nueva técnica llamada ARIA, abreviatura de Adaptive Rate Interleave Alignment, también resuelve un problema sutil pero persistente: los sistemas de IA que distorsionan números o palabras inusuales al leer en voz alta. ARIA sincroniza dinámicamente el texto y el habla para mantener la salida natural y precisa.

Luego está la clonación de voz. Los usuarios pueden subir una muestra de voz y hacer que el modelo adopte esa voz en sus respuestas, una función que coloca a Qwen en competencia directa con ElevenLabs y otras herramientas de voz dedicadas. Sin embargo, no pudimos acceder a esta función, ya que por ahora solo está disponible a través de la API.

En los benchmarks de estabilidad de voz multilingüe, Qwen 3.5 Omni Plus superó a ElevenLabs, GPT-Audio y Minimax en 20 idiomas. El modelo también admite ahora búsqueda web en tiempo real, lo que significa que puede responder preguntas sobre noticias de última hora o datos de mercado en vivo sin pretender que ya los conoce.

El equipo también destaca lo que llaman "Audio-Visual Vibe Coding": el modelo puede ver una grabación de pantalla o video de una tarea de programación y escribir código funcional basándose únicamente en lo que ve y escucha, sin necesidad de un prompt de texto. Es un pequeño adelanto de cómo los asistentes de IA podrían eventualmente operar dentro de tu flujo de trabajo en lugar de hacerlo a su lado.

Para entender qué significa "omnimodal" en la práctica, realizamos una prueba rápida: le enviamos tanto a Qwen 3.5 Omni como a ChatGPT 5.4 en modo "thinking" el mismo YouTube Short —un clip del presidente de Dastan (Dastan es la empresa matriz de Decrypt) y el comentarista Farokh discutiendo noticias de último momento. Qwen 3.5 Omni procesó el video de forma nativa y devolvió un análisis completo en aproximadamente un minuto: quién hablaba, qué discutían y un comentario sustancial sobre el tema basado en su propio conocimiento del área.

ChatGPT 5.4, que no es omnimodal, tuvo que arreglárselas con lo que tenía. Extrajo fotogramas del video, los procesó con un modelo de visión, usó Whisper para transcribir el audio y aplicó una herramienta de OCR para leer los subtítulos integrados —tres procesos separados unidos para aproximarse a lo que Qwen 3.5 Omni hace en un solo paso. El resultado tardó nueve minutos, y eso en condiciones ideales: un video bien iluminado con audio limpio y subtítulos quemados. El contenido del mundo real rara vez ofrece los tres.

En nuestras pruebas rápidas con múltiples entradas, el modelo también procesó prompts en español, portugués e inglés sin problemas, cambiando de idioma a mitad de conversación sin perder el contexto.

En los benchmarks estándar, Qwen 3.5 Omni Plus superó a Gemini 3.1 Pro en comprensión general de audio, razonamiento y tareas de traducción, e igualó su desempeño en comprensión audiovisual. El reconocimiento de voz ahora abarca 113 idiomas y dialectos, frente a los 19 de la generación anterior.

Este es el segundo gran lanzamiento de IA de Alibaba en seis semanas. En febrero, presentó Qwen 3.5, un modelo de texto y visión que igualó o superó a los modelos frontier en benchmarks de razonamiento y programación —parte de una racha que también ha incluido Qwen Deep Research y una serie de herramientas que rivalizan con OpenAI y Google. Qwen 3.5 Omni extiende ese impulso hacia el territorio multimodal completo, en un momento en que todos los grandes laboratorios de IA compiten por construir sistemas que manejen todo el espectro de la comunicación humana, no solo palabras en una pantalla.

El modelo ya está disponible a través de la API de Alibaba Cloud y puede probarse directamente en Qwen Chat o a través de la demo en línea de Hugging Face.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Get Email!

Noticias recomendados

Comité Bancario del Senado Aprueba la Ley CLARITY Pese a Tensiones por Negocios Cripto de Trump

El Comité Bancario del Senado votó para avanzar la Ley CLARITY, una pieza clave de legislación sobre criptomonedas, hacia una votación en el pleno del Senado. El jueves, los demócratas del Senado se dividieron en su apoyo a la Ley CLARITY durante la votación crucial, con dos miembros pro-cripto del partido votando a favor del histórico proyecto de ley cripto, y todos los demás votando en contra. El Sen. Ruben Gallego (D-AZ) y Angela Alsobrooks (D-MD) votaron a favor de la legislación, a pesar d...

Georgia Nombra a Tether Emisor Oficial de GELT, su Stablecoin Respaldada por el Banco Nacional

Tether anunció el lunes que planea emitir una stablecoin en Georgia con el respaldo del gobierno del país, lo que subraya el agresivo esfuerzo de la nación por posicionarse como un hub cripto alineado con las regulaciones de Estados Unidos. La stablecoin, denominada GELT, funcionará como una representación digital del lari georgiano, según indicó Tether en un comunicado. La empresa describió el movimiento como uno de "los primeros esfuerzos conjuntos para colocar una moneda nacional directamente...

Tienda de Ropa Vinculada a Kash Patel Desaparece Tras Distribuir Malware para Robar Criptomonedas

Una tienda de ropa vinculada al director del FBI, Kash Patel, apareció desconectada el viernes después de que observadores advirtieran que el sitio web de Based Apparel distribuía malware diseñado para vaciar billeteras cripto. Hasta que el sitio web aparentemente se desconectó, los visitantes con macOS recibían indicaciones para instalar el malware "ClickFix" copiando y pegando un comando en la terminal de su sistema, lo que ponía en riesgo tokens de sesión, datos del navegador y billeteras cr...

Noticias

Cursos

Profundidades

Monedas

Videos