Esta IA Está Aprendiendo a Diferenciar Entre El Bien y el Mal

La IA Claude de Anthropic ha desarrollado un conjunto de principios éticos a través de una "constitución" y puede manejar solicitudes del tamaño de un libro.

Por Jose Antonio Lanz

5 min lectura

Con la inteligencia artificial (IA) generando a menudo contenido ficticio y ofensivo, Anthropic, una empresa dirigida por antiguos investigadores de OpenAI, está trazando un camino diferente: desarrollando una IA capaz de saber lo que es bueno y malo con una intervención humana mínima.

El chatbot de Anthropic, Claude, está diseñado con una "constitución" única, un conjunto de reglas inspiradas en la Declaración Universal de Derechos Humanos, diseñadas para garantizar un comportamiento ético junto con una funcionalidad sólida, junto con otras normas "éticas" como las reglas de Apple para los desarrolladores de aplicaciones.

Sin embargo, el concepto de "constitución" puede ser más metafórico que literal. Jared Kaplan, un ex consultor de OpenAI y uno de los fundadores de Anthropic, dijo a Wired que la constitución de Claude podría interpretarse como un conjunto específico de parámetros de entrenamiento, que cualquier entrenador utiliza para modelar su IA. Esto implica un conjunto diferente de consideraciones para el modelo, que alinea su comportamiento más estrechamente con su constitución y desalienta las acciones consideradas problemáticas.

El método de entrenamiento de Anthropic se describe en un artículo de investigación titulado "Constitutional AI: Inocuidad a partir de la retroalimentación de la IA", que explica una forma de crear una IA "inofensiva" pero útil que, una vez entrenada, es capaz de auto-mejorarse sin retroalimentación humana, identificando comportamientos inapropiados y adaptando su propio comportamiento.

"Gracias a Constitutional AI y al entrenamiento de inocuidad, puede confiar en Claude para representar a su empresa y sus necesidades", dice la compañía en su sitio web oficial. "Claude ha sido entrenado para manejar incluso a interlocutores conversacionales desagradables o malintencionados con gracia".

Cabe destacar que Claude puede manejar más de 100,000 tokens de información, mucho más que ChatGPT, Bard o cualquier otro modelo de lenguaje grande competente o chatbot de IA actualmente disponible.

En el ámbito de la IA, un "token" se refiere generalmente a un fragmento de datos, como una palabra o un carácter, que el modelo procesa como una unidad discreta. La capacidad de tokens de Claude le permite manejar conversaciones extensas y tareas complejas, lo que lo convierte en una presencia formidable en el panorama de la IA. Para contextualizar, podrías proporcionar fácilmente un libro completo como entrada (prompt), y él sabría qué hacer.

IA y el relativismo del bien y el mal

La preocupación por la ética en la IA es apremiante, pero es un área matizada y subjetiva. La ética, tal como la interpretan los entrenadores de IA, podría limitar el modelo si esas reglas no se alinean con las normas sociales más amplias. Una sobrevaloración de la percepción personal del entrenador de "bueno" o "malo" podría limitar la capacidad de la IA para generar respuestas poderosas e imparciales.

Este tema ha sido ampliamente debatido entre los entusiastas de la IA, quienes tanto elogian como critican (dependiendo de sus propios sesgos) la intervención de OpenAI en su propio modelo en un intento por hacerlo más políticamente correcto. Pero por paradójico que parezca, una IA debe ser entrenada utilizando información no ética para diferenciar lo que es ético de lo que no lo es. Y si la IA conoce esos puntos de datos, los humanos inevitablemente encontrarán una manera de hacer un "jailbreak" en el sistema, saltarse esas restricciones y lograr resultados que los entrenadores de la IA intentaron evitar.

La implementación del marco ético de Claude es experimental. El ChatGPT de OpenAI, que también tiene como objetivo evitar sugerencias poco éticas, ha dado resultados mixtos. Sin embargo, el esfuerzo por abordar directamente el uso ético incorrecto de los chatbots, como lo demuestra Anthropic, es un avance notable en la industria de la IA.

El entrenamiento ético de Claude lo alienta a elegir respuestas que se alineen con su constitución, centrándose en apoyar la libertad, la igualdad, un sentido de hermandad y el respeto por los derechos individuales. Pero, ¿puede una IA elegir consistentemente respuestas éticas? Kaplan cree que la tecnología está más avanzada de lo que muchos podrían anticipar. "Esto funciona de manera sencilla", dijo en el Seminario de Stanford MLSys la semana pasada. "Esta inofensividad mejora a medida que se avanza en este proceso".

Relación de utilidad a inofensividad de un modelo que utiliza AI Constitucional (gris) vs métodos estándar (colores). Imagen: Anthropic

Claude de Anthropic nos recuerda que el desarrollo de la IA no es solo una carrera tecnológica; es un viaje filosófico. No se trata solo de crear una IA más "inteligente", para los investigadores en la vanguardia, se trata de crear una que comprenda la delgada línea que separa lo correcto de lo incorrecto.

¿Interesado en aprender más sobre la IA? Echa un vistazo a nuestro último curso de Decrypt U, "Introducción a la IA". Cubre todo, desde la historia de la IA hasta el aprendizaje automático, ChatGPT, ChainGPT y más. Descubre más aquí.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Noticias recomendados