En Resumen
- Investigadores encuentran declive en habilidades de ChatGPT: de resolver matemáticas al razonamiento visual, el rendimiento ha disminuido.
- Posibles causas: optimizaciones para evitar respuestas peligrosas, uso de modelos más pequeños y baratos, afectando la calidad.
- Soluciones propuestas: modelos de código abierto y evaluación continua para prevenir regresiones y mantener el rendimiento.
ChatGPT explotó en escena a finales del año pasado, deslumbrando a las personas con sus habilidades de conversación similares a las humanas, y el lanzamiento de la última versión provocó un rally de criptomonedas y llamados a una pausa en el desarrollo. Pero según un nuevo estudio, las habilidades del principal bot de IA en realidad podrían estar en declive.
Investigadores de Stanford y UC Berkeley analizaron sistemáticamente diferentes versiones de ChatGPT desde marzo hasta junio de 2022. Desarrollaron rigurosas pruebas de referencia para evaluar la competencia del modelo en tareas de matemáticas, programación y razonamiento visual. Los resultados del rendimiento de ChatGPT a lo largo del tiempo no fueron buenos.
Las pruebas revelaron una sorprendente disminución en el rendimiento entre las versiones. En un desafío matemático para determinar números primos, ChatGPT resolvió correctamente 488 de las 500 preguntas en marzo, con una precisión del 97,6%. Sin embargo, en junio, ChatGPT solo logró responder correctamente 12 preguntas, cayendo a una precisión del 2,4%.
La disminución fue especialmente pronunciada en las habilidades de codificación de software del chatbot.
"Para GPT-4, el porcentaje de generaciones que son directamente ejecutables disminuyó del 52.0% en marzo al 10.0% en junio", destacó la investigación. Estos resultados se obtuvieron utilizando la versión pura de los modelos, es decir, no se utilizaron complementos de intérpretes de código.
Para evaluar el razonamiento, los investigadores utilizaron indicaciones visuales del conjunto de datos del Corpus de Razonamiento Abstracto (ARC). Incluso aquí, aunque no fue tan pronunciada, se observó una disminución. "GPT-4 en junio cometió errores en consultas en las que fue correcto en marzo", dice el estudio.
¿Qué podría explicar la aparente degradación de ChatGPT después de solo unos meses? Los investigadores plantean la hipótesis de que podría ser un efecto secundario de las optimizaciones realizadas por su creador OpenAI.
Una posible causa es los cambios introducidos para evitar que ChatGPT responda preguntas peligrosas. Sin embargo, esta alineación de seguridad podría afectar la utilidad de ChatGPT para otras tareas. Los investigadores encontraron que el modelo tiende a dar respuestas verbosas e indirectas en lugar de respuestas claras.
"GPT-4 empeora con el tiempo, no mejora", dijo el experto en IA Santiago Valderrama, en Twitter. Valderrama también planteó la posibilidad de que una mezcla "más barata y rápida" de modelos haya reemplazado la arquitectura original de ChatGPT.
"Los rumores sugieren que están utilizando varios modelos más pequeños y especializados de GPT-4 que actúan de manera similar a un modelo grande, pero son menos costosos de ejecutar", hipotetizó, lo que, según él, podría acelerar las respuestas para los usuarios pero reducir la competencia.
There are hundreds (maybe thousands already?) of replies from people saying they have noticed the degradation in quality.
Browse the comments, and you'll read about many situations where GPT-4 is not working as before.
— Santiago (@svpino) July 19, 2023
Otro experto, el Dr. Jm, Fan, también compartió sus ideas en un Hilo de Twitter.
"Lamentablemente, una mayor seguridad generalmente conlleva menos utilidad", escribió, diciendo que estaba tratando de dar sentido a los resultados vinculándolos con la forma en que OpenAI ajusta sus modelos. "Mi suposición (sin evidencia, solo especulación) es que OpenAI dedicó la mayor parte de los esfuerzos a hacer una lobotomía desde marzo hasta junio, y no tuvo tiempo de recuperar completamente las otras capacidades que importan".
Fan argumenta que pueden haber influido otros factores, como los esfuerzos de reducción de costos, la introducción de advertencias y exenciones de responsabilidad que pueden "simplificar" el modelo, y la falta de comentarios más amplios de la comunidad.
Si bien se justifica una prueba más exhaustiva, los hallazgos se alinean con las frustraciones expresadas por los usuarios sobre la disminución de la coherencia en las salidas antes elocuentes de ChatGPT.
¿Cómo podemos evitar un mayor deterioro? Algunos entusiastas abogaron por modelos de código abierto como LLaMA de Meta (que acaba de ser actualizado) que permiten la depuración de la comunidad. La evaluación continua para detectar regresiones tempranas es crucial.
Por ahora, los fanáticos de ChatGPT pueden necesitar moderar sus expectativas. La máquina generadora de ideas salvajes que muchos encontraron por primera vez parece más tranquila y tal vez menos brillante. Pero el declive relacionado con la edad parece ser inevitable, incluso para las celebridades de la IA.