ChatGPT Está Disminuyendo su Rendimiento, Según Nuevo Estudio

Los investigadores de UC Berkeley encontraron que ChatGPT no ha mejorado con el tiempo y, de hecho, podría haber empeorado.

4 min lectura

Jul 20, 2023

ChatGPT explotó en escena a finales del año pasado, deslumbrando a las personas con sus habilidades de conversación similares a las humanas, y el lanzamiento de la última versión provocó un rally de criptomonedas y llamados a una pausa en el desarrollo. Pero según un nuevo estudio, las habilidades del principal bot de IA en realidad podrían estar en declive.

Investigadores de Stanford y UC Berkeley analizaron sistemáticamente diferentes versiones de ChatGPT desde marzo hasta junio de 2022. Desarrollaron rigurosas pruebas de referencia para evaluar la competencia del modelo en tareas de matemáticas, programación y razonamiento visual. Los resultados del rendimiento de ChatGPT a lo largo del tiempo no fueron buenos.

Las pruebas revelaron una sorprendente disminución en el rendimiento entre las versiones. En un desafío matemático para determinar números primos, ChatGPT resolvió correctamente 488 de las 500 preguntas en marzo, con una precisión del 97,6%. Sin embargo, en junio, ChatGPT solo logró responder correctamente 12 preguntas, cayendo a una precisión del 2,4%.

Imagen: UC Berkeley, Stanford

La disminución fue especialmente pronunciada en las habilidades de codificación de software del chatbot.

"Para GPT-4, el porcentaje de generaciones que son directamente ejecutables disminuyó del 52.0% en marzo al 10.0% en junio", destacó la investigación. Estos resultados se obtuvieron utilizando la versión pura de los modelos, es decir, no se utilizaron complementos de intérpretes de código.

Para evaluar el razonamiento, los investigadores utilizaron indicaciones visuales del conjunto de datos del Corpus de Razonamiento Abstracto (ARC). Incluso aquí, aunque no fue tan pronunciada, se observó una disminución. "GPT-4 en junio cometió errores en consultas en las que fue correcto en marzo", dice el estudio.

¿Qué podría explicar la aparente degradación de ChatGPT después de solo unos meses? Los investigadores plantean la hipótesis de que podría ser un efecto secundario de las optimizaciones realizadas por su creador OpenAI.

Una posible causa es los cambios introducidos para evitar que ChatGPT responda preguntas peligrosas. Sin embargo, esta alineación de seguridad podría afectar la utilidad de ChatGPT para otras tareas. Los investigadores encontraron que el modelo tiende a dar respuestas verbosas e indirectas en lugar de respuestas claras.

"GPT-4 empeora con el tiempo, no mejora", dijo el experto en IA Santiago Valderrama, en Twitter. Valderrama también planteó la posibilidad de que una mezcla "más barata y rápida" de modelos haya reemplazado la arquitectura original de ChatGPT.

"Los rumores sugieren que están utilizando varios modelos más pequeños y especializados de GPT-4 que actúan de manera similar a un modelo grande, pero son menos costosos de ejecutar", hipotetizó, lo que, según él, podría acelerar las respuestas para los usuarios pero reducir la competencia.

Otro experto, el Dr. Jm, Fan, también compartió sus ideas en un Hilo de Twitter.

"Lamentablemente, una mayor seguridad generalmente conlleva menos utilidad", escribió, diciendo que estaba tratando de dar sentido a los resultados vinculándolos con la forma en que OpenAI ajusta sus modelos. "Mi suposición (sin evidencia, solo especulación) es que OpenAI dedicó la mayor parte de los esfuerzos a hacer una lobotomía desde marzo hasta junio, y no tuvo tiempo de recuperar completamente las otras capacidades que importan".

Fan argumenta que pueden haber influido otros factores, como los esfuerzos de reducción de costos, la introducción de advertencias y exenciones de responsabilidad que pueden "simplificar" el modelo, y la falta de comentarios más amplios de la comunidad.

Si bien se justifica una prueba más exhaustiva, los hallazgos se alinean con las frustraciones expresadas por los usuarios sobre la disminución de la coherencia en las salidas antes elocuentes de ChatGPT.

¿Cómo podemos evitar un mayor deterioro? Algunos entusiastas abogaron por modelos de código abierto como LLaMA de Meta (que acaba de ser actualizado) que permiten la depuración de la comunidad. La evaluación continua para detectar regresiones tempranas es crucial.

Por ahora, los fanáticos de ChatGPT pueden necesitar moderar sus expectativas. La máquina generadora de ideas salvajes que muchos encontraron por primera vez parece más tranquila y tal vez menos brillante. Pero el declive relacionado con la edad parece ser inevitable, incluso para las celebridades de la IA.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Get Email!

Noticias recomendados

Comité Bancario del Senado Aprueba la Ley CLARITY Pese a Tensiones por Negocios Cripto de Trump

El Comité Bancario del Senado votó para avanzar la Ley CLARITY, una pieza clave de legislación sobre criptomonedas, hacia una votación en el pleno del Senado. El jueves, los demócratas del Senado se dividieron en su apoyo a la Ley CLARITY durante la votación crucial, con dos miembros pro-cripto del partido votando a favor del histórico proyecto de ley cripto, y todos los demás votando en contra. El Sen. Ruben Gallego (D-AZ) y Angela Alsobrooks (D-MD) votaron a favor de la legislación, a pesar d...

Conoce a los Que Aún se Aferran al Proyecto Terra Luna Que Do Kwon Abandonó

Pedro se despierta, besa a su esposa en la mejilla y se voltea para tomar su teléfono y revisar sus validadores de Luna Classic. En el mundo real, se está preparando para ir a trabajar como maestro cervecero en una cervecería. Pero en el virtual, es conocido como Vegas, una de las voces más destacadas de la comunidad de Terra Luna Classic. Terra Luna Classic es la blockchain que fue bifurcada y abandonada cuando el fundador de Terraform Labs, Do Kwon, intentó salvar su tambaleante imperio en 202...

Crisis de Zcash Demuestra que la Privacidad es un Arma de Doble Filo, Según Expertos

Proteger los fondos de miradas indiscretas siempre ha sido la especialidad de Zcash, pero la inquietud de los inversores el viernes indicó que la característica principal de la moneda de privacidad también puede parecerse a un talón de Aquiles. Tras la divulgación de un error que tenía el potencial de desatar una ola de monedas falsificadas, Zcash cayó a su punto más bajo en más de un mes. El activo digital cotizaba recientemente alrededor de $350, una caída del 33% en el último día, según Coin...

Noticias

Cursos

Profundidades

Monedas

Videos