Xiaomi Lanza MiMo-V2.5 con Visión, Audio y Video: Rivaliza con Claude Opus 4.6 y GPT-5.4 en Benchmarks

Cinco semanas después de que MiMo-V2-Pro impresionara al mundo de la IA, Xiaomi regresa con un modelo que agrega ojos y oídos, a la mitad del precio.

Por Jose Antonio Lanz

6 min lectura

Xiaomi acaba de lanzar una nueva familia de modelos de IA. De nuevo.

Hace algunas semanas, la compañía lanzó MiMo-V2-Pro—un modelo de un billón de parámetros que había circulado discretamente en OpenRouter bajo el alias "Hunter Alpha" antes de que Xiaomi revelara su identidad. Pasó de ser anónimo a estar en la cima de la noche a la mañana. Lo probamos, y fue impresionante.

Ahora Xiaomi regresa con MiMo-V2.5 y MiMo-V2.5-Pro, una familia de dos modelos que añade algo que la generación anterior nunca tuvo en un solo paquete: ojos, oídos y la capacidad de procesar video. Además, la compañía planea lanzar los modelos como código abierto en un futuro próximo.

El V2-Pro era exclusivo de texto y código. La capacidad multimodal existía en su modelo hermano, MiMo-V2-Omni, pero era un producto separado con puntuaciones de benchmark inferiores. MiMo-V2.5 colapsa todo eso en un solo modelo—más rápido, más capaz y con comprensión nativa de imágenes, video y audio integrada desde el inicio.

Eso importa más de lo que parece para los usuarios regulares. Por ejemplo, ahora puedes subir una foto de tu nevera y pedirle que sugiera recetas para la cena. Cargar un tutorial en video y obtener un resumen paso a paso. Grabar una reunión y hacer que extraiga los puntos de acción. Todo en un solo lugar, sin necesidad de alternar entre herramientas separadas y modelos distintos con diferentes estrategias de precios.

Xiaomi afirma que MiMo-V2.5-Pro representa "un gran avance respecto a MiMo-V2-Pro en capacidades agénticas generales, ingeniería de software compleja y tareas de largo alcance", y señala que ahora iguala a modelos de frontera como Claude Opus 4.6 y GPT-5.4 en la mayoría de los benchmarks de codificación y agentes. Los números respaldan en gran medida esa afirmación—aunque con algunas brechas aún visibles en tareas de razonamiento más complejas.

Los modelos base y pro sirven propósitos distintos. MiMo-V2.5-Pro es el más potente. Xiaomi afirma que puede "completar de forma autónoma tareas profesionales que involucran más de 1.000 llamadas a herramientas, trabajo que tomaría días a expertos humanos". Eso está orientado a desarrolladores que ejecutan flujos de trabajo automatizados complejos y de múltiples pasos. Funciona a 60–80 tokens por segundo y cuesta $1,00 de entrada / $3,00 de salida por millón de tokens.

MiMo-V2.5 es la versión para el uso cotidiano. Más rápido (100–150 tokens por segundo), más económico ($0,40 de entrada / $2,00 de salida) y compatible con todas las modalidades—imagen, audio y video, que el nivel Pro omite. Ambos modelos cuentan con una ventana de contexto de 1M de tokens, lo que significa que pueden retener aproximadamente 750.000 palabras en una sola conversación.

En SWE-bench Pro—un benchmark de codificación donde los modelos corrigen errores reales en bases de código de startups, puntuado como tasa de aprobación sobre 100—MiMo-V2.5-Pro resuelve el 57,2% de las tareas. Eso lo ubica cerca de la cima del campo; el modelo promedio logra alrededor del 25%. La historia es similar en τ3-bench y ClawEval, donde queda a pocos puntos de Claude Opus 4.6 y GPT-5.4. La brecha se amplía en Humanity's Last Exam, una prueba de problemas de nivel de posgrado en docenas de campos académicos: MiMo obtiene 48,0% frente al 58,7% de GPT-5.4—un déficit de 10 puntos difícil de ignorar.

Donde realmente se destaca es en la eficiencia de tokens. Xiaomi señala que MiMo-V2.5-Pro usa un 42% menos de tokens que Kimi K2.6 con puntuaciones de benchmark equivalentes, y MiMo-V2.5 usa casi la mitad de los tokens de Muse Spark para resultados similares. Para quienes los utilizan a escala—desarrolladores que procesan miles de solicitudes diariamente—esa diferencia se traduce en dinero real.

En tareas multimodales, los resultados de MiMo-V2.5 lo ubican a la par de GPT/5.4 y Gemini 3.1 Pro, y muy cerca de los estándares de Opus 4.6.

Desde diciembre de 2025, Xiaomi ha completado tres grandes lanzamientos de modelos: primero lanzó su eficiente MiMo-V2-Flash, luego el trío V2-Pro/Omni/TTS en marzo, y ahora la serie V2.5. La compañía se comprometió a invertir al menos $8.700 millones en IA durante los próximos tres años, anunciado por el CEO Lei Jun al día siguiente del lanzamiento del V2-Pro—y el ritmo de lanzamientos sugiere que el presupuesto ya está en movimiento.

El contexto también ayuda a explicar la velocidad. Según Digital Applied, a principios de abril, los modelos de Xiaomi representaban aproximadamente el 21% de todo el tráfico en OpenRouter—con un crecimiento de más del 42% en los últimos 7 días. Cuando tu modelo anterior se convierte en uno de los más competitivos de la plataforma de enrutamiento de IA más grande del mundo, tienes tanto los recursos como la presión para iterar rápido.

Esto probablemente se debió al auge de la herramienta de IA agéntica Hermes y su acuerdo con Xiaomi, que ofrecía a los usuarios acceso gratuito a MiMo v2 Pro por tiempo limitado. Ese período ya cerró, pero el entusiasmo fue suficiente para poner a Xiaomi en el mapa.

Quienes quieran usar Hermes de forma gratuita ahora pueden probar el nuevo Step 3.5 flash con la API de Nous o usar OpenRouter con modelos gratuitos, aunque con un uso más limitado.

Los precios del plan de tokens también se actualizaron. MiMo-V2.5 funciona a una tasa de 1x créditos; MiMo-V2.5-Pro a 2x. Xiaomi ya no cobra un multiplicador adicional por usar la ventana de contexto completa de 1 millón de tokens, lo que hace notablemente más económico el análisis de documentos extensos. Los usuarios existentes también reciben un restablecimiento completo de créditos como bono de lanzamiento.

Xiaomi indica que el modelo está disponible en su AI Studio. Intentamos acceder inmediatamente después del lanzamiento—sin éxito. Sin embargo, ya está disponible a través de la API de Xiaomi MiMo, que es donde la mayoría de los desarrolladores lo utilizarán en la práctica.

La compañía afirma que ya está entrenando la próxima generación, con "razonamiento más profundo, integración de herramientas más precisa y una base más sólida en el mundo real". Al ritmo que va Xiaomi, ese anuncio probablemente está más cerca de lo que esperarías.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Noticias recomendados