GPT-5 No Supera a los Ingenieros en su Propio Terreno: Datadog Expone Limitaciones de la IA

Los mejores modelos de IA aún no logran superar a los ingenieros que supuestamente deben reemplazar a la hora de resolver problemas del mundo real, según sugiere un nuevo benchmark.

4 min lectura

May 19, 2026

Las empresas de IA siguen promocionando agentes autónomos de ingeniería de confiabilidad del sitio—IA que investiga incidentes de producción en lugar de humanos. Datadog ejecutó el benchmark real sobre interrupciones reales, y los mejores modelos de IA aún no pueden superar a los ingenieros que se supone deben reemplazar.

El benchmark es ARFBench (Anomaly Reasoning Framework Benchmark), un proyecto conjunto de Datadog y Carnegie Mellon. Construido a partir de 63 incidentes de producción reales, extraídos de los propios hilos de Slack de los ingenieros durante emergencias en vivo—750 preguntas de opción múltiple que cubren 142 métricas de monitoreo y 5,38 millones de puntos de datos, cada pregunta verificada a mano. Sin datos sintéticos. Sin escenarios de libro de texto.

"Cada año se pierden billones de dólares debido a interrupciones del sistema", escriben los investigadores. El benchmark evalúa si la IA puede realmente ayudar a cambiar eso.

"A pesar del papel central que juega este tipo de análisis basado en preguntas en la respuesta a incidentes, no está claro si los modelos de fundación modernos pueden responder de manera confiable el tipo de preguntas sobre series temporales que los ingenieros hacen en la práctica", señala el paper.

Las preguntas se dividen en tres niveles. Nivel I: ¿Existe una anomalía en este gráfico? Nivel II: ¿Cuándo comenzó, qué tan grave es, de qué tipo es?

El Nivel III—el más difícil—requiere razonamiento entre métricas: ¿Este gráfico está causando el problema en ese otro gráfico? Ahí es donde la IA falla. GPT-5 obtiene apenas un 47,5% de F1 en las preguntas del Nivel III, una métrica que penaliza a los modelos que intentan manipular las respuestas eligiendo la clase más común.

Cómo se desempeñó cada modelo

GPT-5 lideró todos los modelos existentes con un 62,7% de precisión—en una prueba donde adivinar al azar da un 24,5%. Gemini 3 Pro obtuvo un 58,1%. Claude Opus 4.6: 54,8%. Claude Sonnet 4.5: 47,2%.

Los expertos en el área lograron un 72,7% de precisión. Los no expertos—investigadores de series temporales en Datadog sin amplia experiencia en observabilidad—alcanzaron un 69,7%.

Ningún modelo de IA superó ninguno de los dos umbrales humanos.

Imagen elaborada por Decrypt basada en el CSV del leaderboard de ARFBench

El modelo que encabezó el leaderboard completo fue el híbrido propio de Datadog: Toto—su modelo interno de pronóstico de series temporales—combinado con Qwen3-VL 32B. Toto-1.0-QA-Experimental obtuvo un 63,9% de precisión, superando a GPT-5 utilizando una fracción de sus parámetros. En la identificación de anomalías específicamente, superó a todos los demás modelos por al menos 8,8 puntos porcentuales en F1.

Que un modelo de dominio específico, entrenado con datos de observabilidad, supere a un sistema de propósito general de frontera en esta tarea concreta es el resultado esperado. Ese es el punto.

El hallazgo más valioso no es qué modelo obtuvo la puntuación más alta.

"Observamos perfiles de error sustancialmente diferentes entre los modelos líderes y los expertos humanos, lo que sugiere que sus fortalezas son complementarias", afirman los investigadores. Los modelos alucinan, omiten metadatos y pierden contexto de dominio. Los humanos malinterpretan marcas de tiempo precisas y ocasionalmente fallan en instrucciones complejas. Los errores apenas se superponen.

Si se modela un teórico "Oráculo Modelo-Experto"—un juez perfecto que siempre elige la respuesta correcta entre la IA y el humano—se obtiene un 87,2% de precisión y un 82,8% de F1. Muy por encima de cualquiera de los dos por separado.

Eso no es un producto. Es un objetivo documentado—construido a partir de emergencias reales, no de datasets curados—que cuantifica exactamente cuánto mejor podría rendir la colaboración humano-IA. El leaderboard está disponible en Hugging Face. GPT-5 se ubica en 62,7%. El techo es 87,2%.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Get Email!

Noticias recomendados

Comité Bancario del Senado Aprueba la Ley CLARITY Pese a Tensiones por Negocios Cripto de Trump

El Comité Bancario del Senado votó para avanzar la Ley CLARITY, una pieza clave de legislación sobre criptomonedas, hacia una votación en el pleno del Senado. El jueves, los demócratas del Senado se dividieron en su apoyo a la Ley CLARITY durante la votación crucial, con dos miembros pro-cripto del partido votando a favor del histórico proyecto de ley cripto, y todos los demás votando en contra. El Sen. Ruben Gallego (D-AZ) y Angela Alsobrooks (D-MD) votaron a favor de la legislación, a pesar d...

Bitcoin Sube a $64.000 Tras la Mayor Desaceleración de la Inflación en EEUU en Seis Años

Bitcoin superó los $64.000 el martes por la mañana, después de que un ampliamente observado índice de inflación mostrara que los precios al consumidor se enfriaron más de lo esperado en junio, lo que reforzó las expectativas de que la Reserva Federal mantendrá las tasas de interés sin cambios al concluir su próxima reunión de política monetaria. El Índice de Precios al Consumidor (IPC) cayó un 0,4% intermensual en junio, según informó el martes la Oficina de Estadísticas Laborales de Estados Uni...

Reino Unido Elimina Impuesto a Ganancias de Capital en Préstamos DeFi y Depósitos en Pools de Liquidez

El Servicio de Impuestos y Aduanas del Reino Unido (HMRC) ha confirmado que depositar criptoactivos en protocolos de préstamos DeFi y pools de liquidez ya no se considerará una enajenación sujeta a impuestos, difiriendo cualquier impuesto sobre las ganancias de capital hasta que el inversor realice una enajenación económica real de los activos. El cambio, establecido en un documento de política publicado el lunes, entrará en vigor el 6 de abril de 2027 y modificará la Ley de Tributación de Ganan...

Noticias

Cursos

Profundidades

Monedas

Videos