En Resumen

  • GPT-4.5 convenció al 73% de los participantes en un test estilo Turing de que era humano.
  • El modelo superó a GPT-4.0, LLaMa-3.1-405B y otros en pruebas con diferentes prompts.
  • OpenAI anunció que retirará GPT-4.5 y lo reemplazará por GPT-4.1 este verano.

ChatGPT-4.5 de OpenAI ha alcanzado un hito que se consideraba que tardaría décadas en conseguirse: convencer a una mayoría de participantes en una evaluación de estilo Test de Turing de que era humano.

En un reciente estudio de la Universidad de California, San Diego, que buscaba evaluar si los Large Language Model pueden superar el clásico Test de Turing de tres partes, se informó que GPT-4.5 tuvo éxito en el 73% de las conversaciones basadas en texto.

El estudio mostró que el último Large Language Model (LLM) superó a versiones anteriores, como GPT-4.0 y otros, incluyendo ELIZA y LLama-3.1-405 B.

GPT-4.5, lanzado por OpenAI en febrero, fue capaz de detectar sutiles señales lingüísticas, haciéndolo parecer más humano, según Cameron Jones, investigador postdoctoral en UC San Diego.

"Si les preguntas cómo es ser humano, los modelos tienden a responder bien y pueden fingir convincentemente tener experiencias emocionales y sexuales", dijo Jones a Decrypt. "Pero tienen dificultades con cosas como información en tiempo real o eventos actuales".

El Test de Turing, propuesto por el matemático británico Alan Turing en 1950, evalúa si una máquina puede imitar la conversación humana lo suficientemente bien como para engañar a un juez humano. Si el juez no puede distinguir confiablemente la máquina del humano, se considera que la máquina ha superado la prueba.

Para evaluar el rendimiento de los modelos de IA, los investigadores probaron dos tipos de prompt: un prompt básico con instrucciones mínimas y un prompt más detallado que dirigía al modelo a adoptar la voz de una persona joven introvertida y conocedora de internet que usa jerga.

"Seleccionamos estos testigos sobre la base de un estudio exploratorio donde evaluamos cinco diferentes prompts y siete diferentes LLM y encontramos que LLaMa-3.1-405B, GPT-4.5, y este prompt de personaje funcionaron mejor", dijeron los investigadores en el estudio.

El estudio también abordó las implicaciones sociales y económicas más amplias de que los LLMs  superen el Test de Turing, incluido el posible uso indebido.

"Algunos riesgos incluyen la desinformación, como el astroturfing, donde los bots fingen ser personas para inflar el interés en una causa", dijo Jones. "Otros involucran fraude o ingeniería social—si un modelo envía correos electrónicos a alguien durante un tiempo y parece real, podría persuadirlos para compartir información sensible o acceder a cuentas bancarias".

El lunes, OpenAI anunció el lanzamiento de la siguiente iteración de su modelo insignia GPT, GPT-4.1. Esta nueva IA es aún más avanzada y puede procesar documentos extensos, bases de código o incluso novelas. OpenAI dijo que retirará GPT-4.5 y lo reemplazará con GPT 4-1 este verano.

Aunque Turing nunca presenció el panorama actual de la IA, Jones señaló que la prueba que propuso en 1950 sigue siendo relevante.

"El Test de Turing sigue siendo relevante en la forma en que Turing lo pretendía", dijo. "En su artículo, habla de máquinas de aprendizaje y sugiere que la forma de construir algo que pase el Test de Turing es creando un niño computacional que aprenda de muchos datos. Eso es esencialmente cómo funcionan los modelos modernos de machine learning".

Cuando se le preguntó sobre las críticas al estudio, Jones reconoció su valor al tiempo que aclaraba lo que el Test de Turing mide y lo que no.

"Lo principal que diría es que el Test de Turing no es una prueba perfecta de inteligencia—o incluso de similitud humana", dijo. "Pero es valioso por lo que mide: si una máquina puede convencer a una persona de que es humana. Eso vale la pena medir y tiene implicaciones reales".

Editado por Sebastian Sinclair

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.