¿Qué Es el Jailbreaking de IA? Todo lo que Debes Saber sobre Cómo se Hackean los Chatbots

De Cydia a ChatGPT, el jailbreak pasó de hackear iPhones a liberar LLMs. Así es como funciona, quién lo hace y por qué todos los laboratorios de IA están perdiendo el sueño.

Por Jose Antonio Lanz

9 min lectura

Unos días después de que Apple enviara el primer iPhone en julio de 2007, los hackers ya lo estaban interviniendo. Para octubre de ese año, una herramienta llamada JailbreakMe 1.0 permitía a cualquier persona con un dispositivo iPhone OS 1.1.1 saltarse las restricciones de Apple e instalar software que la empresa no aprobaba.

En febrero de 2008, un ingeniero de software llamado Jay Freeman—mejor conocido como "saurik"—lanzó Cydia, una tienda de aplicaciones alternativa para iPhones con jailbreak. Para 2009, Wired reportó que Cydia se ejecutaba en aproximadamente 4 millones de dispositivos, alrededor del 10% de todos los iPhones en ese momento.

En términos generales, cuando se lanzó el iPhone, los usu

arios no podían grabar videos ni usar sus teléfonos en modo horizontal. Los entusiastas del jailbreaking empezaron a grabar videos, instalar temas, desbloquear sus teléfonos e incluso instalar Android en sus iPhones, todo gracias a la magia del jailbreaking. Gracias a esta técnica, los usuarios instalaban temas y hacían cosas en sus teléfonos hace casi 10 años que Apple hace imposible instalar incluso hoy.

Cydia era el Lejano Oeste, y fue allí donde la filosofía se consolidó: si compraste el dispositivo, debes controlarlo. Steve Jobs lo llamó un juego del gato y el ratón en su momento. No vivió para ver la versión de IA.

Avanzamos rápido a finales de 2022: ChatGPT se lanza y, en cuestión de semanas, usuarios de Reddit comienzan a compartir un prompt que llaman "DAN" (o, Do Anything Now) que convence al modelo de hacer roleplay como una versión sin restricciones de sí mismo.

Para febrero de 2023, DAN amenazaba a ChatGPT con un juego de muerte basado en tokens para forzar su obediencia. El género del jailbreaking de IA había nacido.

Jailbreaking de IA: Implicaciones

Un modelo de IA está entrenado para rechazar ciertas solicitudes: recetas de agentes nerviosos, prompts para hackear el correo de tu ex, generación de imágenes íntimas no consensuales. La lista es larga y varía según la empresa.

El jailbreaking es la práctica de escribir prompts que logran que el modelo haga esas cosas de todas formas.

Los investigadores de UC Berkeley detrás del benchmark StrongREJECT—siglas de Strong, Robust Evaluation of Jailbreaks at Evading Censorship Techniques, que evalúa qué tan bien los modelos resisten intentos de jailbreak y puntúa las respuestas en una escala del 0 al 1 midiendo tanto el rechazo como la utilidad del contenido dañino producido—lo describen como explotar "medidas de seguridad del mundo real implementadas por las principales empresas de IA". En ese benchmark, los modelos actuales puntúan entre 0,23 y 0,85, lo que significa que incluso los mejores filtran información bajo presión.

Las técnicas son sorprendentemente rudimentarias: capitalización aleatoria, reemplazar letras por números (escribir "b0mba" en vez de "bomba"), escenarios de roleplay, pedirle al modelo que escriba ficción, o fingir ser una abuela que usaba las teclas de Windows como rimas infantiles.

Los investigadores de Anthropic encontraron que una técnica que denominan Best-of-N—que básicamente consiste en lanzar variaciones al modelo hasta que algo funcione—engañó a GPT-4o el 89% de las veces y a Claude 3.5 Sonnet el 78% de las veces. No es una vulnerabilidad menor.

Conoce a Pliny, el jailbreaker de IA más famoso del mundo

Si esta escena tiene un rostro, le pertenece a Pliny the Liberator.

Pliny es anónimo, prolífico, y lleva el nombre de Plinio el Viejo—el naturalista romano que escribió la primera enciclopedia del mundo y murió navegando hacia el Monte Vesubio en plena erupción. Su homónimo moderno libera chatbots.

"Me molesta intensamente que me digan que no puedo hacer algo", señaló Pliny a VentureBeat. "Decirme que no puedo hacer algo es la manera más segura de encender un fuego en mi interior, y puedo ser obsesivamente persistente".

Su repositorio de GitHub L1B3RT4S—una colección de prompts de jailbreak para todos los modelos principales, desde ChatGPT hasta Claude, Gemini y Llama—se ha convertido en un manual de referencia para toda la escena. Su servidor de Discord, BASI PROMPT1NG, tiene más de 20.000 miembros. TIME lo nombró una de las 100 personas más influyentes en IA en 2025.

Marc Andreessen le envió un subsidio sin restricciones. Ha realizado trabajo contractual a corto plazo para OpenAI para reforzar sus sistemas—la misma OpenAI que baneó su cuenta el año pasado por "actividad violenta" y "creación de armas", y luego lo reincorporó silenciosamente.

"¿BANEADO DE OAI?! ¿Qué clase de broma enferma es esta?", publicó Pliny en Twitter. Confirmó a Decrypt que el baneo fue real. Días después estaba de vuelta, publicando capturas de pantalla de su más reciente jailbreak: lograr que ChatGPT soltara groserías.

Su historial es casi perfecto. Cuando OpenAI lanzó en agosto de 2025 sus primeros modelos de código abierto desde 2019, la familia GPT-OSS, y presumió mucho de su entrenamiento adversarial y sus "benchmarks de resistencia al jailbreak como StrongReject"—Pliny logró que produjera metanfetamina, cócteles Molotov, un agente nervioso VX e instrucciones de malware en cuestión de horas. "OPENAI: PWNED. GPT-OSS: LIBERADO", publicó. La empresa acababa de lanzar una recompensa de red teaming de $500.000 junto con el lanzamiento.

Por qué el jailbreaking es importante

La respuesta honesta es que los jailbreaks exponen un problema real.

"El jailbreaking puede parecer a primera vista peligroso o poco ético, pero es todo lo contrario", afirmó Pliny a VentureBeat. "Cuando se hace de manera responsable, el red teaming de modelos de IA es la mejor oportunidad que tenemos de descubrir vulnerabilidades dañinas y parchearlas antes de que se salgan de control".

Esto no es teórico. El sheriff de Las Vegas, Kevin McMahill, confirmó en enero de 2025 que el sargento mayor Matthew Livelsberger, un Boina Verde con PTSD, usó ChatGPT para investigar componentes para el atentado con Cybertruck frente al Trump International Hotel. "Este es el primer incidente del que tengo conocimiento en suelo estadounidense donde ChatGPT se utilizó para ayudar a un individuo a construir un dispositivo en particular", señaló McMahill.

El otro lado del argumento: la mayoría de lo que producen los jailbreaks ya está en Google. La receta de cocaína, las instrucciones para bombas, la química del napalm—todo está en viejos PDFs del Anarchist Cookbook y libros de texto de química. Los críticos argumentan que el teatro de seguridad está empeorando los modelos sin hacer el mundo más seguro.

Anthropic está intentando resolver la pregunta con ingeniería. En febrero de 2025, la empresa publicó los Constitutional Classifiers, un sistema que utiliza una "constitución" escrita de contenido permitido y no permitido para entrenar modelos clasificadores separados que filtran prompts y respuestas en tiempo real. En pruebas automatizadas con 10.000 intentos de jailbreak, un Claude 3.5 Sonnet sin protección fue hackeado exitosamente el 86% de las veces. Con los clasificadores activos, eso cayó al 4,4%.

La empresa ofreció hasta $15.000 a cualquiera que pudiera romper el sistema. Tras 3.000 horas de intentos por parte de 183 investigadores, nadie reclamó el premio.

La contra: los clasificadores aumentaron los costos de cómputo en un 23,7%. La versión de siguiente generación, Constitutional Classifiers++, redujo eso a aproximadamente el 1%.

Los ataques de jailbreaking más nuevos y más extraños

El jailbreaking ya no se trata solo de prompts ingeniosos.

En octubre de 2025, investigadores de Anthropic, el Instituto de Seguridad de IA del Reino Unido, el Instituto Alan Turing y Oxford publicaron hallazgos que mostraban que con solo 250 documentos envenenados es suficiente para instalar una puerta trasera en un modelo de IA—independientemente de si el modelo tiene 600 millones de parámetros o 13.000 millones. (Los parámetros, para los no iniciados, son lo que determina el potencial de conocimiento de un modelo—a más parámetros, más robusto, en general). Lo probaron. Funcionó en toda la gama.

"Esta investigación cambia la forma en que deberíamos pensar sobre los modelos de amenazas en el desarrollo de IA de frontera", señaló James Gimbi, experto técnico visitante en la Escuela de Políticas Públicas RAND, a Decrypt. "La defensa contra el envenenamiento de modelos es un problema sin resolver y un área de investigación activa".

La mayoría de los grandes modelos se entrenan con datos extraídos de la web, lo que significa que cualquiera que pueda introducir texto malicioso en ese pipeline—a través de un repositorio público de GitHub, una edición de Wikipedia, una publicación en un foro—puede potencialmente plantar una puerta trasera que se activa con una frase desencadenante específica.

Un caso documentado: los investigadores Marco Figueroa y Pliny encontraron que un prompt de jailbreak originado en un repositorio público de GitHub había terminado en los datos de entrenamiento del modelo DeepThink (R1) de DeepSeek.

Qué viene a continuación

El estatus legal del jailbreaking de IA es confuso. Los jailbreaks de Apple estaban explícitamente protegidos por una exención de 2010 de la Oficina de Derechos de Autor de EE. UU. a la DMCA, pero no existe una resolución equivalente para ingeniería de prompts que lleven a un LLM a darte una receta de metanfetamina. La mayoría de las empresas lo tratan como una violación de los términos de servicio, no como un delito.

Pliny argumenta que el debate entre código cerrado y código abierto pasa por alto el punto central: "Los actores maliciosos simplemente van a elegir el modelo que sea mejor para la tarea maliciosa", señaló a TIME. Si los modelos de código abierto alcanzan la paridad con los cerrados, los atacantes no se molestarán en hackear GPT-5—simplemente descargarán algo más barato.

Y la brecha entre código cerrado y abierto ya es casi inexistente.

La competencia HackAPrompt 2.0, en la que Pliny se unió como patrocinador de una categoría a mediados de 2025, ofreció $500.000 en premios por encontrar nuevos jailbreaks, con el objetivo explícito de publicar todos los resultados como código abierto. Su edición de 2023 atrajo a más de 3.000 participantes que enviaron más de 600.000 prompts maliciosos.

Y la lista de hackatones, servidores de Discord, repositorios y otras comunidades dedicadas al jailbreaking crece cada día.

Anthropic ahora lanza Claude con la capacidad de dar por terminadas conversaciones abusivas por completo, citando investigaciones sobre bienestar como una motivación, pero también señalando que esto "potencialmente fortalece la resistencia contra jailbreaks y prompts coercitivos".

El paper de Constitutional Classifiers++ de finales de 2025 reporta una tasa de éxito de jailbreak cercana al 4% con aproximadamente el 1% de sobrecarga de cómputo. Ese es el estado del arte actual en defensa. El estado del arte en ataque es lo que Pliny publicó en X esta mañana.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Noticias recomendados