ChatGPT-4.5 de OpenAI Supera Prueba de Turing Con Tasa de Éxito Del 73%

Un estudio de la UC San Diego utilizando la Prueba de Turing ha demostrado que ChatGPT-4.5 imita la conversación humana mejor que cualquier otro modelo hasta la fecha.

Por Jason Nelson

Apr 15, 2025

4 min lectura

Image created by Decrypt using AI

En Resumen

GPT-4.5 convenció al 73% de los participantes en un test estilo Turing de que era humano.
El modelo superó a GPT-4.0, LLaMa-3.1-405B y otros en pruebas con diferentes prompts.
OpenAI anunció que retirará GPT-4.5 y lo reemplazará por GPT-4.1 este verano.

ChatGPT-4.5 de OpenAI ha alcanzado un hito que se consideraba que tardaría décadas en conseguirse: convencer a una mayoría de participantes en una evaluación de estilo Test de Turing de que era humano.

En un reciente estudio de la Universidad de California, San Diego, que buscaba evaluar si los Large Language Model pueden superar el clásico Test de Turing de tres partes, se informó que GPT-4.5 tuvo éxito en el 73% de las conversaciones basadas en texto.

El estudio mostró que el último Large Language Model (LLM) superó a versiones anteriores, como GPT-4.0 y otros, incluyendo ELIZA y LLama-3.1-405 B.

GPT-4.5, lanzado por OpenAI en febrero, fue capaz de detectar sutiles señales lingüísticas, haciéndolo parecer más humano, según Cameron Jones, investigador postdoctoral en UC San Diego.

"Si les preguntas cómo es ser humano, los modelos tienden a responder bien y pueden fingir convincentemente tener experiencias emocionales y sexuales", dijo Jones a Decrypt. "Pero tienen dificultades con cosas como información en tiempo real o eventos actuales".

El Test de Turing, propuesto por el matemático británico Alan Turing en 1950, evalúa si una máquina puede imitar la conversación humana lo suficientemente bien como para engañar a un juez humano. Si el juez no puede distinguir confiablemente la máquina del humano, se considera que la máquina ha superado la prueba.

Para evaluar el rendimiento de los modelos de IA, los investigadores probaron dos tipos de prompt: un prompt básico con instrucciones mínimas y un prompt más detallado que dirigía al modelo a adoptar la voz de una persona joven introvertida y conocedora de internet que usa jerga.

"Seleccionamos estos testigos sobre la base de un estudio exploratorio donde evaluamos cinco diferentes prompts y siete diferentes LLM y encontramos que LLaMa-3.1-405B, GPT-4.5, y este prompt de personaje funcionaron mejor", dijeron los investigadores en el estudio.

El estudio también abordó las implicaciones sociales y económicas más amplias de que los LLMs superen el Test de Turing, incluido el posible uso indebido.

"Algunos riesgos incluyen la desinformación, como el astroturfing, donde los bots fingen ser personas para inflar el interés en una causa", dijo Jones. "Otros involucran fraude o ingeniería social—si un modelo envía correos electrónicos a alguien durante un tiempo y parece real, podría persuadirlos para compartir información sensible o acceder a cuentas bancarias".

El lunes, OpenAI anunció el lanzamiento de la siguiente iteración de su modelo insignia GPT, GPT-4.1. Esta nueva IA es aún más avanzada y puede procesar documentos extensos, bases de código o incluso novelas. OpenAI dijo que retirará GPT-4.5 y lo reemplazará con GPT 4-1 este verano.

Aunque Turing nunca presenció el panorama actual de la IA, Jones señaló que la prueba que propuso en 1950 sigue siendo relevante.

"El Test de Turing sigue siendo relevante en la forma en que Turing lo pretendía", dijo. "En su artículo, habla de máquinas de aprendizaje y sugiere que la forma de construir algo que pase el Test de Turing es creando un niño computacional que aprenda de muchos datos. Eso es esencialmente cómo funcionan los modelos modernos de machine learning".

Cuando se le preguntó sobre las críticas al estudio, Jones reconoció su valor al tiempo que aclaraba lo que el Test de Turing mide y lo que no.

"Lo principal que diría es que el Test de Turing no es una prueba perfecta de inteligencia—o incluso de similitud humana", dijo. "Pero es valioso por lo que mide: si una máquina puede convencer a una persona de que es humana. Eso vale la pena medir y tiene implicaciones reales".

Editado por Sebastian Sinclair

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.

Noticias recomendados

¿Odias Hacer Llamadas Telefónicas? La IA de Google as Hará por Ti
El miércoles, Google lanzó una nueva función impulsada por IA en Search que puede llamar a negocios locales, verificar precios y disponibilidad, y reportar los resultados—todo sin que el usuario tenga que hacer una llamada telefónica. "Search ahora tiene la capacidad agéntica de llamar a negocios locales usando IA para verificar precios y disponibilidad, ahorrándote la molestia de rastrear información por ti mismo", escribió en X el VP de Google Search Robby Stein. "Esto se está implementando en...
NoticiasArtificial Intelligence
3 min lectura
Jason NelsonJul 17, 2025
Create an account to save your articles.
Conoce el Arma de Microondas que Aniquila Enjambres de Drones Desde el Cielo
Mientras enjambres de drones baratos y rápidos inundan el campo de batalla moderno, Epirus, una startup con sede en Los Ángeles, afirma tener una solución: un arma de microondas de alta potencia que desactiva drones en pleno vuelo, sin disparar un solo tiro. Leonidas es una familia de sistemas avanzados de alta potencia desarrollados por Epirus que utilizan microondas para desactivar enjambres de drones y otras amenazas electrónicas. Nombrado en honor al famoso rey espartano, Leonidas ya está ge...
NoticiasTecnología
3 min lectura
Jason NelsonJul 16, 2025
Create an account to save your articles.
Hackers Comprometen Cuenta Oficial de Elmo en X y Difunden "Mensajes Repugnantes y Racistas"
La plataforma de redes sociales X recibió más críticas el domingo por la forma en que modera el discurso de odio después de que una cuenta oficial perteneciente a Elmo de Sesame emitiera mensajes antisemitas y violentos. Sesame Workshop, la compañía detrás de Sesame Street, atribuyó el arrebato a un "hacker desconocido". "La cuenta de X de Elmo fue comprometida por un hacker desconocido que publicó mensajes repugnantes, incluidas publicaciones antisemitas y racistas", dijo un portavoz a CNN el l...
NoticiasTecnología
3 min lectura
Jason NelsonJul 15, 2025
Create an account to save your articles.

Coin Prices