3 min lectura
En la carrera por desarrollar inteligencia artificial avanzada, no todos los modelos de lenguaje grandes o large language models (LLMs) son iguales. Dos nuevos estudios revelan diferencias sorprendentes en las capacidades de sistemas populares como ChatGPT cuando se ponen a prueba en tareas complejas del mundo real.
Según investigadores de la Universidad de Purdue, ChatGPT tiene dificultades incluso con desafíos básicos de codificación. El equipo evaluó las respuestas de ChatGPT a más de 500 preguntas en Stack Overflow, una comunidad en línea para desarrolladores y programadores, sobre temas como depuración y uso de API.
"Nuestro análisis muestra que el 52% de las respuestas generadas por ChatGPT son incorrectas y el 77% son verbales", escribieron los investigadores. "Sin embargo, las respuestas de ChatGPT siguen siendo preferidas el 39.34% del tiempo debido a su exhaustividad y estilo de lenguaje bien articulado."
Por el contrario, un estudio de la Universidad de UCLA y la Universidad Pepperdine de Malibú demuestra la destreza de ChatGPT para responder preguntas difíciles de exámenes médicos. Cuando se le hicieron más de 850 preguntas de opción múltiple en nefrología, una especialidad avanzada dentro de la medicina interna, ChatGPT obtuvo un puntaje del 73%, similar a la tasa de aprobación de los médicos residentes.
Crédito de la imagen: UCLA via Arvix
"La capacidad actual superior demostrada de GPT-4 para responder con precisión preguntas de opción múltiple en nefrología apunta a la utilidad de modelos de IA similares y más capaces en futuras aplicaciones médicas", concluyó el equipo de UCLA.
Claude AI de Anthropic fue el segundo mejor LLM con un 54,4% de respuestas correctas. El equipo evaluó otros LLM de código abierto, pero estaban lejos de ser aceptables, con la mejor puntuación siendo del 25,5% lograda por Vicuna.
Entonces, ¿por qué ChatGPT destaca en medicina pero se queda corto en programación? Los modelos de aprendizaje automático tienen diferentes fortalezas, señala Lex Fridman, científico informático del MIT. Claude, el modelo detrás del conocimiento médico de ChatGPT, recibió datos de entrenamiento adicionales y propietarios de su creador Anthropic. ChatGPT de OpenAI se basó únicamente en datos disponibles públicamente. Los modelos de IA pueden hacer grandes cosas si se entrenan adecuadamente con grandes cantidades de datos, incluso mejores que la mayoría de los otros modelos.
Imagen cortesía: MIT
Sin embargo, una IA no podrá actuar correctamente fuera de los parámetros en los que fue entrenada, por lo que intentará crear contenido sin conocimiento previo de él, lo que resulta en lo que se conoce como alucinaciones. Si el conjunto de datos de un modelo de IA no incluye un contenido específico, no podrá obtener buenos resultados en esa área.
Como explicaron los investigadores de UCLA, "Sin negar la importancia de la potencia computacional de LLM específicos, la falta de acceso gratuito a material de datos de entrenamiento que actualmente no está en dominio público probablemente seguirá siendo uno de los obstáculos para lograr un rendimiento mejorado en el futuro previsible".
El rendimiento deficiente de ChatGPT en la codificación coincide con otras evaluaciones. Como informó anteriormente Decrypt, investigadores de Stanford y UC Berkeley encontraron que las habilidades matemáticas y de razonamiento visual de ChatGPT disminuyeron drásticamente entre marzo y junio de 2022. Aunque inicialmente era hábil en números primos y acertijos, en verano solo obtuvo un 2% en puntos clave.
Así que aunque ChatGPT puede actuar como médico, aún tiene mucho que aprender antes de convertirse en un programador experto. Pero no está lejos de la realidad, después de todo, ¿cuántos médicos conoces que también sean hackers competentes?
Decrypt-a-cookie
This website or its third-party tools use cookies. Cookie policy By clicking the accept button, you agree to the use of cookies.