In brief
- OpenAI lanzó GPT-5.4 en medio del boicot #QuitGPT por su contrato de IA con el Pentágono.
- GPT-5.4 incorpora una ventana de contexto de 1 millón de tokens y capacidades mejoradas de razonamiento y agentes.
- Las empresas serían las principales beneficiadas, con agentes de IA más rápidos y menor consumo de tokens.
OpenAI inició el despliegue de GPT-5.4—su modelo más capaz hasta la fecha—el jueves, en medio de una crisis de relaciones públicas que ha causado aproximadamente que 2.5 millones de usuarios tomen medidas en contra de la empresa, ya sea cancelando su suscripción o compartiendo el boicot en las redes sociales.
El llamado movimiento #QuitGPT explotó después de que OpenAI revelara un acuerdo con el Departamento de Guerra de EE. UU. horas después de que Anthropic se retirara públicamente del mismo contrato—algo que terminó ocasionando un fuerte desprecio público del Presidente Trump y otros funcionarios gubernamentales hacia los modelos de la empresa.
El punto clave de la salida de Anthropic: El Departamento de Guerra se negó a incluir un lenguaje que prohibiera explícitamente el despliegue de armas autónomas y la vigilancia masiva de ciudadanos estadounidenses.
OpenAI, sin embargo, aceptó el trato que Anthropic rechazó. El CEO Sam Altman, quien ha estado respondiendo preguntas sobre la brecha aparente entre los límites de seguridad declarados por su empresa y el lenguaje real del contrato, necesita a esos usuarios de vuelta.
Y con eso en mente, presentaron GPT-5.4… apenas dos días después de que se presentara GPT-5.3.
El nuevo GPT-5.4 consolida razonamiento, programación y capacidades agénticas en un solo modelo. También tiene la capacidad de soportar un millón de tokens de contexto, lo que se traduce en que los usuarios tengan más libertad para manejar grandes cantidades de información en una sola sesión.
En papel, los números parecen prometedores. En GDPval—una prueba de referencia que evalúa el trabajo de conocimiento en 44 ocupaciones—GPT-5.4 iguala o supera a profesionales de la industria en un 83.0% de las comparaciones, frente al 70.9% de GPT-5.2. El uso de la computadora es el mayor avance: En OSWorld-Verified, que mide la capacidad de un modelo para operar un escritorio a través de capturas de pantalla y acciones de teclado/ratón, GPT-5.4 alcanza una tasa de éxito del 75.0% frente al 47.3% de GPT-5.2—y supera la línea base humana del 72.4%.
En BrowseComp, una prueba de investigación en la web, aumenta 17 puntos porcentuales sobre GPT-5.2. La ventana de contexto de 1 millón de tokens y una función de dirección de respuesta intermedia—que permite a los usuarios redirigir el modelo mientras aún está pensando—completan las características principales.
La función ahorra tiempo y cálculos al evitar la necesidad de descartar todos los tokens generados previamente cuando se detecta un error.
¿Quién se beneficiará de GPT 5.4?
Es importante tener en cuenta que algunas pruebas comparan principalmente a GPT-5.4—y la mayoría de las veces, el razonamiento se estableció en un esfuerzo extra alto, que los usuarios gratuitos y Plus no pueden disfrutar—con GPT-5.2, saltándose por completo a GPT-5.3.
Para los usuarios que ya están en GPT-5.3, varias ganancias pueden sentirse mínimas.

Los programadores tienen más motivos para moderar las expectativas de calidad: en SWE-Bench Pro, la mejora de GPT-5.3-Codex (56.8%) a GPT-5.4 (57.7%) apenas es un error de redondeo. Sin embargo, en términos de eficiencia, OpenAI afirma que se requieren significativamente menos tokens para completar tareas con GPT-5.4 en comparación con GPT-5.2.
“GPT‑5.4 es nuestro modelo de razonamiento más eficiente en tokens hasta ahora, utilizando significativamente menos tokens para resolver problemas en comparación con GPT‑5.2”, dijo OpenAI.
Dicho esto, cualquier mejora en este campo es positiva para los desarrolladores que utilizan modelos de OpenAI a través de la API y se les cobra por token utilizado. Un modelo con una cadena de pensamiento eficiente puede proporcionar los mismos resultados a una fracción del costo, en comparación con un modelo que tiende a pensar demasiado para asegurarse de llegar a la conclusión adecuada.
Hay otra complicación para cualquiera que espere usar el nuevo modelo en este momento: OpenAI dice que GPT-5.4 se lanzará hoy, pero aún no estaba disponible en el momento de publicación del presente artículo, por lo que es probable que se esté implementando lentamente. Para la mayoría de los usuarios, el mejor modelo es GPT 5.3, y solo se puede utilizar para respuestas instantáneas, lo que significa que proporciona respuestas que no requieren demasiado esfuerzo.
Los usuarios que dependen del razonamiento en sus tareas todavía están en GPT-5.2. En otras palabras, los usuarios más propensos a desafiar los límites del modelo son los últimos en obtenerlo.

Los beneficiarios más claros son los usuarios empresariales que realizan trabajos con muchos documentos. En una prueba interna de modelado de hojas de cálculo, GPT-5.4 obtuvo un puntaje del 87.3% frente al 68.4% de GPT-5.2. La firma de investigación legal Harvey dijo que obtuvo un 91% en su evaluación de BigLaw Bench. Mainstay, que ejecuta agentes en 30,000 portales de impuestos a la propiedad, informó una tasa de éxito del 95% en el primer intento y sesiones que se ejecutan "~3 veces más rápido mientras usa ~70% menos de tokens".
Ese es el tipo de argumento de eficiencia que podría importar a los equipos de adquisiciones empresariales, pero es más difícil de vender al usuario individual que está reconsiderando si eliminar su cuenta.

