ChatGPT Está Disminuyendo su Rendimiento, Según Nuevo Estudio

Los investigadores de UC Berkeley encontraron que ChatGPT no ha mejorado con el tiempo y, de hecho, podría haber empeorado.

Por Jose Antonio Lanz

Jul 20, 2023

4 min lectura

Image created by Decrypt using AI

En Resumen

Investigadores encuentran declive en habilidades de ChatGPT: de resolver matemáticas al razonamiento visual, el rendimiento ha disminuido.
Posibles causas: optimizaciones para evitar respuestas peligrosas, uso de modelos más pequeños y baratos, afectando la calidad.
Soluciones propuestas: modelos de código abierto y evaluación continua para prevenir regresiones y mantener el rendimiento.

ChatGPT explotó en escena a finales del año pasado, deslumbrando a las personas con sus habilidades de conversación similares a las humanas, y el lanzamiento de la última versión provocó un rally de criptomonedas y llamados a una pausa en el desarrollo. Pero según un nuevo estudio, las habilidades del principal bot de IA en realidad podrían estar en declive.

Investigadores de Stanford y UC Berkeley analizaron sistemáticamente diferentes versiones de ChatGPT desde marzo hasta junio de 2022. Desarrollaron rigurosas pruebas de referencia para evaluar la competencia del modelo en tareas de matemáticas, programación y razonamiento visual. Los resultados del rendimiento de ChatGPT a lo largo del tiempo no fueron buenos.

Las pruebas revelaron una sorprendente disminución en el rendimiento entre las versiones. En un desafío matemático para determinar números primos, ChatGPT resolvió correctamente 488 de las 500 preguntas en marzo, con una precisión del 97,6%. Sin embargo, en junio, ChatGPT solo logró responder correctamente 12 preguntas, cayendo a una precisión del 2,4%.

Comparación de rendimiento entre las versiones de ChatGPT — Imagen: UC Berkeley, Stanford

La disminución fue especialmente pronunciada en las habilidades de codificación de software del chatbot.

"Para GPT-4, el porcentaje de generaciones que son directamente ejecutables disminuyó del 52.0% en marzo al 10.0% en junio", destacó la investigación. Estos resultados se obtuvieron utilizando la versión pura de los modelos, es decir, no se utilizaron complementos de intérpretes de código.

Para evaluar el razonamiento, los investigadores utilizaron indicaciones visuales del conjunto de datos del Corpus de Razonamiento Abstracto (ARC). Incluso aquí, aunque no fue tan pronunciada, se observó una disminución. "GPT-4 en junio cometió errores en consultas en las que fue correcto en marzo", dice el estudio.

¿Qué podría explicar la aparente degradación de ChatGPT después de solo unos meses? Los investigadores plantean la hipótesis de que podría ser un efecto secundario de las optimizaciones realizadas por su creador OpenAI.

Una posible causa es los cambios introducidos para evitar que ChatGPT responda preguntas peligrosas. Sin embargo, esta alineación de seguridad podría afectar la utilidad de ChatGPT para otras tareas. Los investigadores encontraron que el modelo tiende a dar respuestas verbosas e indirectas en lugar de respuestas claras.

"GPT-4 empeora con el tiempo, no mejora", dijo el experto en IA Santiago Valderrama, en Twitter. Valderrama también planteó la posibilidad de que una mezcla "más barata y rápida" de modelos haya reemplazado la arquitectura original de ChatGPT.

"Los rumores sugieren que están utilizando varios modelos más pequeños y especializados de GPT-4 que actúan de manera similar a un modelo grande, pero son menos costosos de ejecutar", hipotetizó, lo que, según él, podría acelerar las respuestas para los usuarios pero reducir la competencia.

There are hundreds (maybe thousands already?) of replies from people saying they have noticed the degradation in quality.

Browse the comments, and you'll read about many situations where GPT-4 is not working as before.

— Santiago (@svpino) July 19, 2023

Otro experto, el Dr. Jm, Fan, también compartió sus ideas en un Hilo de Twitter.

"Lamentablemente, una mayor seguridad generalmente conlleva menos utilidad", escribió, diciendo que estaba tratando de dar sentido a los resultados vinculándolos con la forma en que OpenAI ajusta sus modelos. "Mi suposición (sin evidencia, solo especulación) es que OpenAI dedicó la mayor parte de los esfuerzos a hacer una lobotomía desde marzo hasta junio, y no tuvo tiempo de recuperar completamente las otras capacidades que importan".

Fan argumenta que pueden haber influido otros factores, como los esfuerzos de reducción de costos, la introducción de advertencias y exenciones de responsabilidad que pueden "simplificar" el modelo, y la falta de comentarios más amplios de la comunidad.

Si bien se justifica una prueba más exhaustiva, los hallazgos se alinean con las frustraciones expresadas por los usuarios sobre la disminución de la coherencia en las salidas antes elocuentes de ChatGPT.

¿Cómo podemos evitar un mayor deterioro? Algunos entusiastas abogaron por modelos de código abierto como LLaMA de Meta (que acaba de ser actualizado) que permiten la depuración de la comunidad. La evaluación continua para detectar regresiones tempranas es crucial.

Por ahora, los fanáticos de ChatGPT pueden necesitar moderar sus expectativas. La máquina generadora de ideas salvajes que muchos encontraron por primera vez parece más tranquila y tal vez menos brillante. Pero el declive relacionado con la edad parece ser inevitable, incluso para las celebridades de la IA.

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.

Artificial Intelligence

The latest artificial intelligence news, in-depth features, explainers, and analysis, spanning from generative to transformational technology and beyond.

ColecciónÚltima actualización Jul 17, 2025

Conoce el Arma de Microondas que Aniquila Enjambres de Drones Desde el Cielo
Mientras enjambres de drones baratos y rápidos inundan el campo de batalla moderno, Epirus, una startup con sede en Los Ángeles, afirma tener una solución: un arma de microondas de alta potencia que desactiva drones en pleno vuelo, sin disparar un solo tiro. Leonidas es una familia de sistemas avanzados de alta potencia desarrollados por Epirus que utilizan microondas para desactivar enjambres de drones y otras amenazas electrónicas. Nombrado en honor al famoso rey espartano, Leonidas ya está ge...
NoticiasTecnología
3 min lectura
Jason NelsonJul 16, 2025
Create an account to save your articles.
"Inteligencia Gozona Artificial": xAI de Musk Lanza Waifus de IA Para Adultos
xAI lanzó compañeras de IA animadas en 3D para Grok este lunes, presentando a los usuarios a Ani, una chica anime gótica que saluda a los suscriptores con "¡Hola cariño!" y quiere hablar sobre todo, desde teléfonos Samsung hasta teorías filosóficas, todo mientras corazones flotan alrededor de su forma animada. La función Companions, exclusiva para suscriptores de SuperGrok que pagan $30 mensuales (y solo en iOS por ahora), se lanzó con tres personajes. Ani, es una waifu de anime rubia con estilo...
NoticiasArtificial Intelligence
4 min lectura
Jose Antonio LanzJul 15, 2025
Create an account to save your articles.
Reseña de Grok 4 Básico: ¿$30 al Mes por Esto? La IA de Elon Musk Ahora Piensa Como Él
Elon Musk presentó Grok 4 durante una transmisión en vivo el miércoles por la noche, afirmando que su startup de IA xAI había creado la "inteligencia artificial más inteligente del mundo". Grok 4 Heavy, que Musk comparó con "un grupo de estudio" donde los agentes comparan notas antes de entregar una respuesta, publicó resultados récord en varios benchmarks clave, y es lo que esperarías obtener de una oferta empresarial que cuesta unos impresionantes $300 al mes. Pero, ¿qué hay del Grok 4 básico,...
ComentariosArtificial Intelligence
10 min lectura
Jose Antonio LanzJul 13, 2025
Create an account to save your articles.

Coin Prices