En Resumen
- Investigadores de ETH Zürich y otros desarrollaron PassGPT, un modelo de adivinación de contraseñas entrenado en contraseñas filtradas.
- PassGPT utiliza el muestreo progresivo para construir contraseñas complejas de forma caracter por caracter.
- PassGPT es capaz de adivinar contraseñas no vistas por otros modelos, aprende patrones en varios idiomas y puede analizar la fortaleza de las contraseñas.
Investigadores de ETH Zürich, Swiss Data Science Center y SRI International en Nueva York han utilizado el poder de la arquitectura GPT-2 de OpenAI para desarrollar PassGPT, un modelo de adivinación de contraseñas, construido sobre un gran modelo de lenguaje (LLM), y entrenado en un gigantesco tesoro de contraseñas filtradas de varios hacks y exploits.
El objetivo principal detrás de PassGPT es descifrar las características crípticas incrustadas en el laberinto de contraseñas generadas por humanos, con el objetivo de dar a los usuarios contraseñas más fuertes y complejas para usar y detectar contraseñas probables según un conjunto de entradas.
La innovación del modelo no solo radica en su capacidad predictiva, sino también en su método único de creación.
A diferencia de los modelos anteriores que diseñaban contraseñas como entidades completas, PassGPT introduce una estrategia innovadora: el muestreo progresivo. Este método construye contraseñas carácter por carácter, asegurando una contraseña meticulosamente compleja, y fue entrenado en una colección de millones de contraseñas filtradas previamente.
"Entrenado en la filtración de RockYou, PassGPT puede adivinar un 20% más de contraseñas no vistas por los modelos GAN de última generación", comentó el creador Javi Rando.
Imagina las Redes Generativas Adversarias (GAN) como un partido entre dos redes. Uno, el Generador, intenta crear contenido tan realista que pueda engañar al otro, el Discriminador, que tiene como objetivo detectar cuando se le presenta contenido artificial. Con cada ronda de este partido, cada red aprende de sus errores y mejora. La calidad general del modelo mejora hasta que llega a un punto en el que el Discriminador apenas puede diferenciar entre lo que es real y lo que es creado por el Generador.
Rando también señaló la singularidad de las contraseñas generadas por PassGPT, indicando que es "un modelo generativo explícito, lo que nos permite acceder a la distribución modelada y calcular la probabilidad de cualquier contraseña dada bajo el modelo. Aprovechamos esta capacidad para analizar las vulnerabilidades de la fortaleza de las contraseñas".
🔐 Introducing PassGPT🔓
Trained on password leaks, PassGPT can generate 20% more unseen passwords than existing GAN methods.
Joint work with @fperezcruz and @BrilandHitaj.
🧵 Let's dive into our key contributions. 🧵— Javi Rando (@javi_rando) June 6, 2023
PassGPT tiene una habilidad distintiva para descubrir patrones considerados fuertes por los estimadores de la fuerza de las contraseñas, pero que son relativamente fáciles de adivinar utilizando técnicas generativas.
"Las contraseñas no inglesas son difíciles para las heurísticas basadas en diccionarios, sin embargo, PassGPT aprende patrones en varios idiomas", explicó Rando. Esta competencia multilingüe establece un nuevo punto de referencia en la investigación de seguridad de contraseñas. El modelo también demostró su capacidad para adivinar nuevas contraseñas que no forman parte de su conjunto de datos.
Es importante destacar que los LLM, como PassGPT, pueden ser adaptados a medida utilizando diferentes conjuntos de datos para aplicaciones específicas. Por ejemplo, Google está entrenando un LLM de IA basado en datos médicos, mientras que otros resultados interesantes han surgido de LLM entrenados en temas diversos como el lenguaje políticamente incorrecto de 4Chan o los matices en el estilo de habla de populares YouTubers.
Curiosamente, las filtraciones de contraseñas no son solo una bendición para los hackers que buscan acceso al sistema. También brindan a los investigadores la oportunidad de examinar patrones ocultos en las contraseñas generadas por los usuarios, con el potencial de mejorar las herramientas de descifrado de contraseñas. Así se pone de manifiesto la faceta paradójica de la seguridad de las contraseñas.
El dominio del aprendizaje automático (ML) ha demostrado ser fundamental para extraer información valiosa de extensas filtraciones de contraseñas. Esta extracción impulsa importantes desarrollos en la adivinación de contraseñas y el ajuste fino de los algoritmos de estimación de la fortaleza de las contraseñas.
En este contexto, los modelos de lenguaje grandes (LLMs) han avanzado significativamente en el procesamiento y comprensión del lenguaje natural, con modelos generativos pre-entrenados (GPT) como PaLM y LLaMA a la vanguardia.
Hay que tener en cuenta que, aunque este PassGPT es una creación legítima, anteriormente hubo una broma del Día de los Inocentes con el mismo nombre, así que tenga cuidado al hacer su propia investigación.
PassGPT es una prueba más de que cada vez hay una IA para todo. Y con IA como PassGPT en funcionamiento, es posible que pronto descubra que el nombre de su gato combinado con su fecha de nacimiento ya no es la fortaleza indescifrable de una contraseña que alguna vez pensó que era.
¿Interesado en aprender más sobre IA? Echa un vistazo a nuestro último curso de Decrypt U, "Introducción a la IA". Cubre todo, desde la historia de la IA hasta el aprendizaje automático, ChatGPT y ChainGPT. Descubre más aquí.