En Resumen
- GPT-4.5 convenció al 73% de los participantes en un test estilo Turing de que era humano.
- El modelo superó a GPT-4.0, LLaMa-3.1-405B y otros en pruebas con diferentes prompts.
- OpenAI anunció que retirará GPT-4.5 y lo reemplazará por GPT-4.1 este verano.
ChatGPT-4.5 de OpenAI ha alcanzado un hito que se consideraba que tardaría décadas en conseguirse: convencer a una mayoría de participantes en una evaluación de estilo Test de Turing de que era humano.
En un reciente estudio de la Universidad de California, San Diego, que buscaba evaluar si los Large Language Model pueden superar el clásico Test de Turing de tres partes, se informó que GPT-4.5 tuvo éxito en el 73% de las conversaciones basadas en texto.
El estudio mostró que el último Large Language Model (LLM) superó a versiones anteriores, como GPT-4.0 y otros, incluyendo ELIZA y LLama-3.1-405 B.
GPT-4.5, lanzado por OpenAI en febrero, fue capaz de detectar sutiles señales lingüísticas, haciéndolo parecer más humano, según Cameron Jones, investigador postdoctoral en UC San Diego.
"Si les preguntas cómo es ser humano, los modelos tienden a responder bien y pueden fingir convincentemente tener experiencias emocionales y sexuales", dijo Jones a Decrypt. "Pero tienen dificultades con cosas como información en tiempo real o eventos actuales".
OpenAI Lanza GPT-4.1: Por Qué Este Modelo de IA Superpotente Acabará con GPT-4.5
OpenAI presentó GPT-4.1 el lunes, un trío de nuevos modelos de IA con ventanas de contexto de hasta un millón de tokens—suficiente para procesar bases de código completas o pequeñas novelas de una vez. La línea incluye las variantes estándar GPT-4.1, Mini y Nano, todas dirigidas a desarrolladores. La última oferta de la compañía llega apenas semanas después del lanzamiento de GPT-4.5, creando una cronología que tiene tanto sentido como el orden de lanzamiento de las películas de Star Wars. "La d...
El Test de Turing, propuesto por el matemático británico Alan Turing en 1950, evalúa si una máquina puede imitar la conversación humana lo suficientemente bien como para engañar a un juez humano. Si el juez no puede distinguir confiablemente la máquina del humano, se considera que la máquina ha superado la prueba.
Para evaluar el rendimiento de los modelos de IA, los investigadores probaron dos tipos de prompt: un prompt básico con instrucciones mínimas y un prompt más detallado que dirigía al modelo a adoptar la voz de una persona joven introvertida y conocedora de internet que usa jerga.
"Seleccionamos estos testigos sobre la base de un estudio exploratorio donde evaluamos cinco diferentes prompts y siete diferentes LLM y encontramos que LLaMa-3.1-405B, GPT-4.5, y este prompt de personaje funcionaron mejor", dijeron los investigadores en el estudio.
El estudio también abordó las implicaciones sociales y económicas más amplias de que los LLMs superen el Test de Turing, incluido el posible uso indebido.
"Algunos riesgos incluyen la desinformación, como el astroturfing, donde los bots fingen ser personas para inflar el interés en una causa", dijo Jones. "Otros involucran fraude o ingeniería social—si un modelo envía correos electrónicos a alguien durante un tiempo y parece real, podría persuadirlos para compartir información sensible o acceder a cuentas bancarias".
OpenAI Mejora Capacidades de Memoria de ChatGPT Permitiendo Acceso Completo al Historial de Conversaciones
OpenAI acaba de presentar una importante actualización de las capacidades de memoria de ChatGPT, permitiendo que la IA haga referencia a todo el historial de conversaciones de un usuario para ofrecer respuestas más personalizadas. Esta función, que se lanza primero para los clientes de pago del nivel Pro de OpenAI, marca un paso hacia sistemas de IA más personalizados. "¡Hemos mejorado enormemente la memoria en ChatGPT—ahora puede hacer referencia a todas tus conversaciones pasadas!", anunció el...
El lunes, OpenAI anunció el lanzamiento de la siguiente iteración de su modelo insignia GPT, GPT-4.1. Esta nueva IA es aún más avanzada y puede procesar documentos extensos, bases de código o incluso novelas. OpenAI dijo que retirará GPT-4.5 y lo reemplazará con GPT 4-1 este verano.
Aunque Turing nunca presenció el panorama actual de la IA, Jones señaló que la prueba que propuso en 1950 sigue siendo relevante.
"El Test de Turing sigue siendo relevante en la forma en que Turing lo pretendía", dijo. "En su artículo, habla de máquinas de aprendizaje y sugiere que la forma de construir algo que pase el Test de Turing es creando un niño computacional que aprenda de muchos datos. Eso es esencialmente cómo funcionan los modelos modernos de machine learning".
Cuando se le preguntó sobre las críticas al estudio, Jones reconoció su valor al tiempo que aclaraba lo que el Test de Turing mide y lo que no.
"Lo principal que diría es que el Test de Turing no es una prueba perfecta de inteligencia—o incluso de similitud humana", dijo. "Pero es valioso por lo que mide: si una máquina puede convencer a una persona de que es humana. Eso vale la pena medir y tiene implicaciones reales".
Editado por Sebastian Sinclair