Los recientes avances en inteligencia artificial se encuentran entre los logros tecnológicos más importantes de la década. Hoy en día, modelos generativos de IA como Midjourney, Stable Diffusion y DALL-E son tan sofisticados que a menudo las propias limitaciones humanas, en lugar de las restricciones del modelo, son el principal obstáculo cuando las personas tienen contacto con la tecnología.
Cuando se puede crear cualquier cosa, la gente se enfrenta a decidir "qué crear", lo que lleva a la parálisis por análisis.
Sin embargo, la IA también tiene sus propias dificultades. El ejemplo perfecto es la creación de manos perfectas. La web está llena de imágenes espeluznantes y aterradoras de personas de apariencia perfecta pero con demasiados, muy pocos o dedos imposiblemente interconectados.
¿Por qué un modelo capaz de generar imágenes realistas de un oso con esmoquin montando una bicicleta en los Alpes suizos todavía tiene problemas con algo tan simple como una mano? La respuesta está lejos de ser sencilla.
Primero, los humanos no siempre han sido excepcionalmente hábiles para crear manos. Dominar el dibujo de manos realistas nos ha llevado siglos, como mínimo. Como ejemplo, estas manos de diferentes épocas no son realistas, y ciertamente no hermosas.
De hecho, los artistas humanos solo han logrado crear representaciones de manos visualmente agradables de manera constante en los últimos 600 años. Eso significa que solo aproximadamente el 0.3% de nuestra historia artística de 200,000 años presenta manos bonitas. En este sentido, demos crédito a las máquinas.
La Manía de la IA: ¿Por Qué la Inteligencia Artificial Lucha Con Las Manos perfectas?
Las razones por las que la IA tiene dificultades con las manos son varias, pero se pueden dividir en dos categorías: biológicas y técnicas.
Razones biológicas:
La complejidad de la mano proviene de una característica biológica fundamental: es la parte del cuerpo con más articulaciones en un área pequeña. En consecuencia, una sola mano puede tener docenas de posiciones y representaciones diferentes —lo que está lejos de ser ideal para identificar patrones.
Básicamente, una IA tiene dificultades para identificar qué hace que una mano sea una mano. Y las características más comunes y básicas (color de piel, textura de la piel, uñas, palma y varios dedos) no son suficientes para cumplir con nuestros criterios.
La inteligencia artificial ha avanzado significativamente en la generación de imágenes realistas y, hasta cierto punto, ha tenido éxito incluso con las manos. A pesar de tener cinco, seis o siete dedos, aún podemos reconocer que la IA crea manos, al menos facsímiles reconocibles.
Sin embargo, las manos juegan un papel tan crucial en nuestras vidas y cuerpos que nuestra percepción tiene estándares extremadamente altos. Es más inquietante ver una mano con seis dedos o sin nudillos que, por ejemplo, una mujer sin ombligo o una persona con piernas más cortas de lo normal.
Esto lleva a las manos generadas por IA a caer en el valle inquietante, donde parecen demasiado realistas para ser una representación falsa pero demasiado falsas para parecer reales.
Razones técnicas:
Técnicamente hablando, las imágenes generadas por IA tienen problemas para representar con precisión cualquier cosa con patrones definidos y regulares. Por ejemplo, las imágenes de IA de una persona descalza con abdominales tonificados y una boca sonriente con dientes visibles podrían tener demasiados dedos del pie, demasiados dientes o quizás un número implausible de abdominales.
Sin embargo, estas inconsistencias no nos molestan tanto porque los dientes y los abdominales no juegan un papel tan importante en nuestras vidas como lo hacen las manos. La mayoría de las personas preferirían perder un diente en lugar de un dedo y ciertamente pueden vivir sin tener un six-pack, a menos que sean fisicoculturistas.
La escasez de datos es otro problema. Los algoritmos de inteligencia artificial todavía no han sido entrenados con suficientes datos para enfocarse específicamente en las manos. El algoritmo generalmente entiende que cuando hay un dedo presente, generalmente hay más. Aún así, carece del detalle necesario para comprender verdaderamente el comportamiento, la ubicación y la función general de cada articulación de los dedos y la mano en cada una de las mil millones de imágenes proporcionadas para el entrenamiento.
Por ejemplo, esta imagen (la número 2.120.079.006.880 del modelo de datos Laion-2b-en usado para entrenar Stable Diffusion) se describe como "Hombre con posición de postura alterada defecto escoliosis e ideal", pero no añade información para describir cómo son sus manos normales: “su mano está en una posición relajada, con los dedos ligeramente cerca uno del otro y curvados hacia su cuerpo con el pulgar no visible”
Stable Diffusion fue entrenado usando el conjunto de datos Laion-5b. ¿Por qué no intentas detectar y describir correctamente las manos humanas en un conjunto de datos de 5.8 billones de imágenes? Buena suerte.
El Futuro de las Manos en IA—y Cómo Resolver el Problema Hoy
Dado que el problema radica en parte en un entrenamiento inadecuado, es razonable suponer que los modelos de generación de texto a imagen eventualmente superarán el desafío de crear manos realistas.
Por ejemplo, Decrypt comprobó recientemente la impresionante competencia de MidJourney en la generación de manos realistas con su última actualización. En unos meses, es probable que la sexta iteración del algoritmo produzca resultados aún más realistas, dada la creciente inversión en estas tecnologías y la disponibilidad de hardware más potente para procesar enormes cantidades de datos.
Incluso ahora, las manos feas empiezan a desaparecer del pasado, al menos para artistas profesionales o experimentados en IA. Ya es posible generar manos realistas utilizando Stable Diffusion, proporcionando orientaciones adicionales al proceso.
Stable Diffusion es un modelo de generación de imágenes con IA de código abierto similar a MidJourney o DALL-E. La diferencia clave es que, debido a su arquitectura abierta, la comunidad puede adaptarlo a sus necesidades, creando modelos personalizados enfocados en todo, desde imágenes futuristas hasta arte caricaturesco y, por supuesto, imágenes adultas sin censura.
Además, los usuarios pueden crear complementos compatibles con Stable Diffusion para diversos fines, como poses, mapas de profundidad, fusión de modelos e implementación de instrucciones para crear manos realistas.
Para generar imágenes con manos perfectas usando Stable Diffusion hoy, los usuarios necesitarán instalar y configurar el plugin ControlNet, proporcionar una imagen de referencia con manos normales al modelo Openpose instalado, dar a Stable Diffusion la solicitud deseada y evaluar la imagen generada.
Una vez hecho esto, los usuarios deben jugar con los parámetros y practicar —mucho. Pero este método (que puede identificar más de 20 puntos clave diferentes en una mano humana) resulta más efectivo que la técnica de inpainting, que consistía en instruir a la máquina para modificar solo la parte de la mano y repetir la instrucción hasta obtener el mejor resultado.
De todos modos, si no quieres lidiar con todo eso, puedes usar Photoshop y editar tus imágenes con manos horribles. Adobe lleva 30 años vendiendo software de inteligencia artificial para mejorar imágenes, así que, de alguna manera, también eres técnicamente un artista de IA si usas cualquier software de edición de imágenes.
A medida que los modelos de IA sigan evolucionando y mejorando, la calidad de las manos generadas y otros patrones complejos avanzará sin duda. La combinación de un mayor inversión, disponibilidad de datos y capacidades de hardware, así como la colaboración en la comunidad de código abierto, impulsará un progreso significativo en este campo.