DeepSeek V4 ya está Aquí—Versión Pro Cuesta un 98% Menos que GPT 5.5 Pro

El laboratorio chino que sacudió a Wall Street acaba de lanzar su modelo más potente y eficiente hasta la fecha, horas después de que OpenAI lanzara GPT-5.5.

Por Jose Antonio Lanz

11 min lectura

DeepSeek está de vuelta, y apareció pocas horas después de que OpenAI lanzara GPT-5.5. ¿Coincidencia? Tal vez. Pero si eres un laboratorio de IA chino al que el gobierno de Estados Unidos ha intentado frenar con restricciones de exportación de chips durante los últimos tres años, el sentido de la oportunidad se afina bastante.

El laboratorio con sede en Hangzhou lanzó hoy versiones preliminares de DeepSeek-V4-Pro y DeepSeek-V4-Flash, ambos de pesos abiertos y con ventanas de contexto de un millón de tokens. Eso significa que puedes trabajar con un contexto aproximadamente del tamaño de la trilogía de El Señor de los Anillos antes de que el modelo colapse. Ambos también tienen precios muy por debajo de cualquier alternativa comparable en Occidente, y ambos son gratuitos para quienes puedan ejecutarlos localmente.

La última gran disrupción de DeepSeek—R1 en enero de 2025—borró $600.000 millones de la capitalización de mercado de Nvidia en un solo día, cuando los inversores cuestionaron si las empresas estadounidenses realmente necesitaban inversiones tan enormes para lograr resultados que un pequeño laboratorio chino alcanzó con una fracción del costo. V4 es un movimiento diferente: más discreto, más técnico y más enfocado en la eficiencia para quienes realmente construyen con IA.

Dos modelos, trabajos muy distintos

De los dos nuevos modelos, el V4-Pro de DeepSeek es el más potente, con 1,6 billones de parámetros totales. Para ponerlo en perspectiva, los parámetros son las "configuraciones" internas o "células cerebrales" que un modelo usa para almacenar conocimiento y reconocer patrones—cuantos más parámetros tiene un modelo, más información compleja puede almacenar en teoría. Eso lo convierte en el modelo de código abierto más grande del mercado de LLM hasta la fecha. El tamaño puede parecer ridículo hasta que uno descubre que solo activa 49.000 millones de ellos por inferencia.

Este es el truco de Mixture-of-Experts que DeepSeek ha refinado desde V3: el modelo completo está ahí, pero solo la parte relevante se activa para cada solicitud. Más conocimiento, el mismo costo computacional.

"DeepSeek-V4-Pro-Max, el modo de razonamiento máximo de DeepSeek-V4-Pro, avanza significativamente las capacidades de conocimiento de los modelos de código abierto, consolidándose firmemente como el mejor modelo de código abierto disponible hoy", escribió DeepSeek en la ficha oficial del modelo en Huggingface. "Logra un rendimiento de primer nivel en benchmarks de programación y reduce significativamente la brecha con los modelos cerrados líderes en tareas de razonamiento y agente".

V4-Flash es el práctico: 284.000 millones de parámetros totales, 13.000 millones activos. Está diseñado para ser más rápido, más económico y, según los propios benchmarks de DeepSeek, "logra un rendimiento de razonamiento comparable al de la versión Pro cuando se le otorga un presupuesto de pensamiento mayor".

Ambos admiten un millón de tokens de contexto. Eso equivale a unas 750.000 palabras—aproximadamente toda la trilogía de "El Señor de los Anillos" y algo más. Y eso como característica estándar, no como nivel premium.

La (no tan) secreta fórmula de DeepSeek: lograr que la atención no sea terrible a escala

Aquí viene la parte técnica para los nerds o para quienes tengan curiosidad por la magia que impulsa el modelo. DeepSeek no oculta sus secretos, y todo está disponible de forma gratuita—el paper completo está disponible en Github.

La atención estándar de IA—el mecanismo que permite a un modelo entender las relaciones entre palabras—tiene un brutal problema de escalado. Cada vez que duplicas la longitud del contexto, el costo computacional se cuadruplica aproximadamente. Así que ejecutar un modelo con un millón de tokens no es simplemente el doble de costoso que con 500.000 tokens. Es cuatro veces más costoso. Por eso el contexto largo ha sido históricamente una casilla que los laboratorios añaden y luego limitan silenciosamente detrás de restricciones de velocidad.

DeepSeek inventó dos nuevos tipos de atención para superar esto. El primero, Compressed Sparse Attention, funciona en dos pasos. Primero comprime grupos de tokens—digamos, cada 4 tokens—en una sola entrada. Luego, en lugar de atender a todas esas entradas comprimidas, usa un "Lightning Indexer" para seleccionar solo los resultados más relevantes para cada consulta. El modelo pasa de atender a un millón de tokens a atender a un conjunto mucho más pequeño de los fragmentos más importantes, algo así como un bibliotecario que no lee cada libro pero sabe exactamente en qué estante buscar.

El segundo, Heavily Compressed Attention, es más agresivo. Colapsa cada 128 tokens en una sola entrada—sin selección dispersa, solo compresión brutal. Se pierde detalle fino, pero se obtiene una visión global extremadamente económica. Los dos tipos de atención se ejecutan en capas alternadas, de modo que el modelo obtiene tanto el detalle como la perspectiva general.

El resultado, según el paper técnico: con un millón de tokens, V4-Pro usa el 27% del cómputo que necesitaba su predecesor (V3.2). La caché KV—la memoria que el modelo necesita para rastrear el contexto—cae al 10% de V3.2. V4-Flash va aún más lejos: 10% del cómputo, 7% de la memoria.

Esto permitió a DeepSeek ofrecer un precio por token mucho más bajo que sus competidores, con resultados comparables. En términos de dólares: GPT-5.5 se lanzó ayer a $5 de entrada y $30 de salida por millón de tokens, con GPT-5.5 Pro a $30 por millón de tokens de entrada y $180 por millón de tokens de salida.

DeepSeek V4-Pro cuesta $1,74 de entrada y $3,48 de salida. V4-Flash, $0,14 de entrada y $0,28 de salida. El CEO de Cline, Saoud Rizwan, señaló que si Uber hubiera usado DeepSeek en lugar de Claude, su presupuesto de IA para 2026—supuestamente suficiente para cuatro meses de uso—habría durado siete años.

Los benchmarks

DeepSeek hace algo inusual en su informe técnico: publica las brechas. La mayoría de los lanzamientos de modelos seleccionan a mano los benchmarks donde ganan. DeepSeek realizó la comparación completa contra GPT-5.4 y Gemini-3.1-Pro, encontró que el razonamiento de V4-Pro está rezagado entre tres y seis meses respecto a esos modelos, y lo publicó de todas formas.

Donde V4-Pro-Max realmente gana: Codeforces, el benchmark de programación competitiva, calificado como el ajedrez humano. V4-Pro obtuvo 3.206 puntos, ubicándose alrededor del puesto 23 entre participantes humanos reales de competencias. En Apex Shortlist, un conjunto curado de problemas difíciles de matemáticas y STEM, logró una tasa de aprobación del 90,2% frente al 85,9% de Opus 4.6 y el 78,1% de GPT-5.4. En SWE-Verified, que mide si un modelo puede resolver problemas reales de GitHub extraídos de repositorios de código abierto, obtuvo 80,6%—igualando a Claude Opus 4.6.

Donde se queda atrás: el benchmark multitarea MMLU-Pro (Gemini-3.1-Pro con 91,0% vs V4-Pro con 87,5%), el benchmark de conocimiento experto GPQA Diamond (Gemini 94,3 vs V4-Pro 90,1) y Humanity's Last Exam, un benchmark de nivel postgrado donde el 44,4% de Gemini-3.1-Pro aún supera el 37,7% de V4-Pro.

En contexto largo específicamente, V4-Pro lidera los modelos de código abierto y supera a Gemini-3.1-Pro en el benchmark CorpusQA (una prueba que simula análisis real de documentos con un millón de tokens), pero pierde ante Claude Opus 4.6 en MRCR—una prueba que mide qué tan bien un modelo recupera elementos específicos enterrados en un haystack muy extenso.

Diseñado para ejecutar agentes, no solo responder preguntas

Lo relacionado con agentes es donde este lanzamiento se vuelve interesante para los desarrolladores que realmente están enviando productos.

V4-Pro puede ejecutarse en Claude Code, OpenCode y otras herramientas de programación con IA. Según la encuesta interna de DeepSeek a 85 desarrolladores que usaron V4-Pro como su agente de programación principal, el 52% afirmó que estaba listo para ser su modelo predeterminado, el 39% se inclinó por el sí, y menos del 9% dijo que no. Empleados internos indicaron que supera a Claude Sonnet y se acerca a Claude Opus 4.5 en tareas de programación con agentes.

Artificial Analysis, que realiza evaluaciones independientes de modelos de IA en tareas del mundo real, clasificó a V4-Pro en el primer lugar entre todos los modelos de pesos abiertos en GDPval-AA—un benchmark que evalúa trabajo de conocimiento con valor económico en finanzas, derecho e investigación, puntuado mediante Elo. V4-Pro-Max obtuvo 1.554 Elo, por delante de GLM-5.1 (1.535) y M2.7 de MiniMax (1.514). Como referencia, Claude Opus 4.6 obtiene 1.619 en el mismo benchmark—aún por delante, pero la brecha se está cerrando.

V4 de DeepSeek también introduce algo llamado "pensamiento intercalado". En modelos anteriores, si se ejecutaba un agente que realizaba múltiples llamadas a herramientas—digamos, buscaba en la web, luego ejecutaba código, luego volvía a buscar—el contexto de razonamiento del modelo se borraba entre rondas. En cada nuevo paso, el modelo tenía que reconstruir su modelo mental desde cero. V4 retiene la cadena de pensamiento completa entre llamadas a herramientas, de modo que un flujo de trabajo de agente de 20 pasos no sufre de amnesia a mitad del proceso. Esto importa más de lo que parece para quienes ejecutan pipelines automatizados complejos.

DeepSeek y la guerra de IA entre Estados Unidos y China

Estados Unidos ha estado restringiendo las exportaciones de chips de alta gama de Nvidia a China desde 2022. El objetivo declarado era frenar el desarrollo de IA chino, pero la restricción de chips no detuvo a DeepSeek y, en cambio, los llevó a inventar una arquitectura más eficiente y a desarrollar el suministro de hardware doméstico.

DeepSeek no lanzó V4 en el vacío—el espacio de la IA ha estado repleto de actividad últimamente: Anthropic lanzó Claude Opus 4.7 el 16 de abril—un modelo que Decrypt probó y encontró sólido en programación y razonamiento, con un uso de tokens notablemente elevado. El día anterior, Anthropic también tenía en su poder Claude Mythos, un modelo de ciberseguridad que afirma no poder lanzar públicamente porque es demasiado bueno en ataques de red autónomos.

Xiaomi lanzó MiMo V2.5 Pro el 22 de abril, apostando por la multimodalidad completa—imagen, audio, video. Cuesta $1 de entrada y $3 de salida por millón de tokens. Iguala a Opus 4.6 en la mayoría de los benchmarks de programación. Hace tres meses, nadie hablaba de Xiaomi como empresa de IA de frontera. Ahora lanza modelos competitivos más rápido que la mayoría de los laboratorios occidentales.

GPT-5.5 de OpenAI llegó ayer con costos que llegan hasta $180 por millón de tokens de salida en la versión Pro. Supera a V4-Pro en Terminal Bench 2.0 (82,7% vs 70,0%), que evalúa flujos de trabajo complejos de agentes en línea de comandos. Sin embargo, cuesta considerablemente más que V4-Pro para tareas equivalentes. Ese mismo día, Tencent lanzó Hy3, otro modelo de última generación enfocado en la eficiencia.

Qué significa esto para ti

Con tantos modelos nuevos disponibles, la pregunta que realmente se hacen los desarrolladores es: ¿cuándo vale la pena pagar más?

Para las empresas, el cálculo puede haber cambiado. Un modelo que lidera los benchmarks de código abierto a $1,74 por millón de tokens de entrada significa que los pipelines de procesamiento masivo de documentos, revisión legal o generación de código que eran costosos hace seis meses ahora son mucho más económicos. El contexto de un millón de tokens permite alimentar bases de código completas o expedientes regulatorios en una sola solicitud, en lugar de dividirlos en múltiples llamadas.

Además, su naturaleza de código abierto significa que no solo puede ejecutarse gratuitamente en hardware local, sino que también puede personalizarse y mejorarse según las necesidades y casos de uso de cada empresa.

Para desarrolladores y creadores independientes, V4-Flash es el que hay que seguir. A $0,14 de entrada y $0,28 de salida, es más económico que los modelos que hace un año se consideraban opciones de presupuesto—y maneja la mayoría de las tareas que maneja la versión Pro. Los endpoints existentes de DeepSeek, deepseek-chat y deepseek-reasoner, ya dirigen a V4-Flash en los modos de no-razonamiento y razonamiento respectivamente, así que si estás usando la API, ya lo estás usando.

Los modelos son solo de texto por ahora. DeepSeek afirmó que está trabajando en capacidades multimodales, lo que significa que otros grandes laboratorios, desde Xiaomi hasta OpenAI, aún tienen esa ventaja. Ambos modelos tienen licencia MIT y están disponibles hoy en Hugging Face. Los endpoints anteriores deepseek-chat y deepseek-reasoner se retirarán el 24 de julio de 2026.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Noticias recomendados