En Resumen

  • OpenAI lanzó DALL-E 3, una versión mejorada de su generador de imágenes basado en IA.
  • DALL-E 3 mejoró la precisión en la representación de descripciones textuales detalladas y captura relaciones entre objetos.
  • OpenAI implementó controles éticos para evitar la generación de contenido inapropiado y permitirá que los creadores se excluyan de la reproducción de su estilo por parte del modelo.

OpenAI, el unicornio detrás del auge de la industria de la IA generativa, ha presentado DALL-E 3, la última versión de su generador de imágenes. Con su controlador ChatGPT, la actualización proporciona imágenes de alta calidad en respuesta a indicaciones en lenguaje natural, con controles éticos implementados.

Generadores de imágenes como DALL-E, MidJourney y Stable Diffusion han abierto nuevas fronteras creativas para artistas y usuarios ocasionales desde el auge de la IA a finales del año pasado. Al convertir indicaciones de texto en imágenes impresionantes, ofrecen vislumbres de interpretaciones de la creatividad humana por parte de las máquinas. Ahora, OpenAI tiene como objetivo empujar los límites aún más con DALL-E 3, un modelo que podría ponerlo de nuevo en competencia directa con otros líderes de la industria.

DALL-E 3 demuestra mejoras masivas en la representación precisa de descripciones textuales detalladas. A diferencia de las versiones anteriores, se adhiere de cerca a indicaciones complejas sin requerir ajustes de ingeniería de indicaciones enormes u otros trucos complicados de indicación. El nuevo sistema también sobresale en capturar relaciones entre objetos y generar detalles humanos fotorrealistas como manos y reflejos.

Cuando se comparan las salidas de las mismas indicaciones en DALL-E 2 y DALL-E 3, este último produce notablemente imágenes más nítidas y precisas. Puede arrojar representaciones extremadamente realistas de escenas mientras obtiene texturas, iluminación y fondos correctos. Y parece bastante capaz de generar texto e integrarlo en sus imágenes, algo que hasta la fecha sigue siendo un problema incluso para los generadores de imágenes de IA más potentes.

DALL-E 3 se basa en ChatGPT, lo que permite a los usuarios refinar iterativamente las indicaciones a través de intercambios conversacionales. Las muestras filtradas tempranas insinúan capacidades de iteración extremadamente rápidas. Como Decrypt informó anteriormente, el YouTuber MattVidPro llamó a una versión beta anterior de DALL-E 3 "increíble" y afirmó que ni siquiera la próxima versión de MidJourney podría competir.

Sin embargo, la disponibilidad sigue siendo muy limitada, con alrededor de 400 probadores, y OpenAI dice que su nuevo modelo se lanzará "pronto".

Una imagen creada con DALL-E 3 y el lenguaje utilizado en el proceso. Fuente: OpenAI
Una imagen creada con DALL-E 3 y el lenguaje utilizado en el proceso. Fuente: OpenAI

Por ahora, los usuarios pueden crear imágenes con DALL-E 2 utilizando complementos con ChatGPT Plus. Aquellos que no paguen una suscripción tendrán que lidiar con restricciones como esta:

Fuente: Decrypt

El camino hasta este punto no ha estado exento de obstáculos. Durante su fase de prueba beta, el modelo fue conocido por su naturaleza sin censura, capaz de generar contenido que iba desde desnudos hasta violencia y gore. Esto levantó sospechas y generó preocupaciones sobre el posible mal uso de esta tecnología. Pero OpenAI parece haber tomado en cuenta estas preocupaciones, implementando características en DALL-E 3 que evitan la generación de contenido que pueda considerarse violento, para adultos o lleno de odio, asegurando una experiencia de usuario más segura.

Una de estas medidas es la formación de un equipo de expertos "para ayudar a informar nuestra evaluación de riesgos y nuestros esfuerzos de mitigación en áreas como la propaganda y la desinformación".

Las preocupaciones en torno al arte de IA persisten, especialmente en lo que respecta a contenido inapropiado o poco ético. Si bien OpenAI eliminó los filtros durante las pruebas, la compañía está explorando estrategias para prevenir el mal uso en las versiones públicas. También facilitará la identificación de imágenes generadas con su herramienta. Esto podría evitar la propagación de deepfakes e identificar potencialmente el origen de una imagen en caso de que alguien eluda la censura nativa del modelo.

OpenAI también está al tanto de las preocupaciones sobre el uso legal de obras de arte humanas para entrenar su modelo y ha encontrado una respuesta para un generador más ético. DALL-E 3 no reproducirá contenido cuando se le pida imitar a artistas vivos, y OpenAI permitirá que los creadores se excluyan. Esto aborda las críticas de artistas como Greg Rutkowski, quienes argumentan que la copia de su estilo por parte de la IA sin consentimiento es poco ético.

También se han presentado demandas importantes, incluida la del autor George R.R. Martin acusando a OpenAI de uso indebido de material con derechos de autor.

OpenAI no respondió de inmediato a una solicitud de comentarios por parte de Decrypt.

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.