En Resumen
- Investigadores encuentran declive en habilidades de ChatGPT: de resolver matemáticas al razonamiento visual, el rendimiento ha disminuido.
- Posibles causas: optimizaciones para evitar respuestas peligrosas, uso de modelos más pequeños y baratos, afectando la calidad.
- Soluciones propuestas: modelos de código abierto y evaluación continua para prevenir regresiones y mantener el rendimiento.
ChatGPT explotó en escena a finales del año pasado, deslumbrando a las personas con sus habilidades de conversación similares a las humanas, y el lanzamiento de la última versión provocó un rally de criptomonedas y llamados a una pausa en el desarrollo. Pero según un nuevo estudio, las habilidades del principal bot de IA en realidad podrían estar en declive.
Investigadores de Stanford y UC Berkeley analizaron sistemáticamente diferentes versiones de ChatGPT desde marzo hasta junio de 2022. Desarrollaron rigurosas pruebas de referencia para evaluar la competencia del modelo en tareas de matemáticas, programación y razonamiento visual. Los resultados del rendimiento de ChatGPT a lo largo del tiempo no fueron buenos.
Las pruebas revelaron una sorprendente disminución en el rendimiento entre las versiones. En un desafío matemático para determinar números primos, ChatGPT resolvió correctamente 488 de las 500 preguntas en marzo, con una precisión del 97,6%. Sin embargo, en junio, ChatGPT solo logró responder correctamente 12 preguntas, cayendo a una precisión del 2,4%.

La disminución fue especialmente pronunciada en las habilidades de codificación de software del chatbot.
"Para GPT-4, el porcentaje de generaciones que son directamente ejecutables disminuyó del 52.0% en marzo al 10.0% en junio", destacó la investigación. Estos resultados se obtuvieron utilizando la versión pura de los modelos, es decir, no se utilizaron complementos de intérpretes de código.
Para evaluar el razonamiento, los investigadores utilizaron indicaciones visuales del conjunto de datos del Corpus de Razonamiento Abstracto (ARC). Incluso aquí, aunque no fue tan pronunciada, se observó una disminución. "GPT-4 en junio cometió errores en consultas en las que fue correcto en marzo", dice el estudio.
WormGPT: El Clon Malicioso de ChatGPT Que Afectó a Miles de Víctimas
Un hacker de sombrero negro ha lanzado una versión maliciosa de ChatGPT de OpenAI llamada, que luego se utilizó para crear un ataque de phishing por correo electrónico efectivo en miles de víctimas. WormGPT, basado en el modelo de lenguaje grande o LLM GPTJ desarrollado en 2021 por EleutherAI, está diseñado específicamente para actividades maliciosas, según un informe de la empresa de ciberseguridad SlashNext. Las características incluyen soporte ilimitado de caracteres, retención de memoria de...
¿Qué podría explicar la aparente degradación de ChatGPT después de solo unos meses? Los investigadores plantean la hipótesis de que podría ser un efecto secundario de las optimizaciones realizadas por su creador OpenAI.
Una posible causa es los cambios introducidos para evitar que ChatGPT responda preguntas peligrosas. Sin embargo, esta alineación de seguridad podría afectar la utilidad de ChatGPT para otras tareas. Los investigadores encontraron que el modelo tiende a dar respuestas verbosas e indirectas en lugar de respuestas claras.
"GPT-4 empeora con el tiempo, no mejora", dijo el experto en IA Santiago Valderrama, en Twitter. Valderrama también planteó la posibilidad de que una mezcla "más barata y rápida" de modelos haya reemplazado la arquitectura original de ChatGPT.
"Los rumores sugieren que están utilizando varios modelos más pequeños y especializados de GPT-4 que actúan de manera similar a un modelo grande, pero son menos costosos de ejecutar", hipotetizó, lo que, según él, podría acelerar las respuestas para los usuarios pero reducir la competencia.
There are hundreds (maybe thousands already?) of replies from people saying they have noticed the degradation in quality.
Browse the comments, and you'll read about many situations where GPT-4 is not working as before.
— Santiago (@svpino) July 19, 2023
Otro experto, el Dr. Jm, Fan, también compartió sus ideas en un Hilo de Twitter.
"Lamentablemente, una mayor seguridad generalmente conlleva menos utilidad", escribió, diciendo que estaba tratando de dar sentido a los resultados vinculándolos con la forma en que OpenAI ajusta sus modelos. "Mi suposición (sin evidencia, solo especulación) es que OpenAI dedicó la mayor parte de los esfuerzos a hacer una lobotomía desde marzo hasta junio, y no tuvo tiempo de recuperar completamente las otras capacidades que importan".
Fan argumenta que pueden haber influido otros factores, como los esfuerzos de reducción de costos, la introducción de advertencias y exenciones de responsabilidad que pueden "simplificar" el modelo, y la falta de comentarios más amplios de la comunidad.
Meta se Lanza de Lleno a la IA: ¿Podrá Competir Con Google, ChatGPT y MidJourney?
Meta está intensificando agresivamente sus esfuerzos de inteligencia artificial en un intento por alcanzar a rivales como Google, Microsoft y OpenAI. El gigante de las redes sociales ha presentado un nuevo modelo de texto a imagen llamado CM3leon que afirma lograr un rendimiento de vanguardia para generar imágenes a partir de indicaciones de texto. Pero aún no está disponible para pruebas o uso comercial. CM3leon marca un avance en las capacidades de IA de Meta. El modelo no solo puede generar i...
Si bien se justifica una prueba más exhaustiva, los hallazgos se alinean con las frustraciones expresadas por los usuarios sobre la disminución de la coherencia en las salidas antes elocuentes de ChatGPT.
¿Cómo podemos evitar un mayor deterioro? Algunos entusiastas abogaron por modelos de código abierto como LLaMA de Meta (que acaba de ser actualizado) que permiten la depuración de la comunidad. La evaluación continua para detectar regresiones tempranas es crucial.
Por ahora, los fanáticos de ChatGPT pueden necesitar moderar sus expectativas. La máquina generadora de ideas salvajes que muchos encontraron por primera vez parece más tranquila y tal vez menos brillante. Pero el declive relacionado con la edad parece ser inevitable, incluso para las celebridades de la IA.