En Resumen
- Meta usó libros pirateados de LibGen para entrenar su IA, según documentos judiciales presentados por un grupo de autores.
- Ingenieros de Meta eliminaron datos de derechos de autor antes de entrenar el modelo Llama, pese a sus dudas sobre la legalidad.
- Presuntamente, Zuckerberg aprobó el uso de los libros pirateados pese a advertencias internas, pero luego afirmó que desconocía los detalles exactos.
Mark Zuckerberg aprobó el uso de libros pirateados para entrenar Meta AI, incluso después de que su propio equipo advirtiera que el material fue obtenido ilegalmente, según alegan un grupo de autores en una reciente presentación judicial.
Las acusaciones provienen de una demanda por infracción de derechos de autor presentada por un grupo de autores, incluyendo a la comediante Sarah Silverman, Christopher Golden y Richard Kadrey en una corte federal de California en julio de 2023. El grupo alegó que Meta usó indebidamente sus libros para entrenar su Large Language Model (LLM) Llama, y están solicitando daños y una orden judicial para impedir que Meta use sus obras. El juez del caso desestimó la mayoría de las reclamaciones de los autores en noviembre del mismo año, pero estas recientes alegaciones podrían dar nueva vida a la disputa legal.
"El CEO de Meta, Mark Zuckerberg, aprobó el uso del conjunto de datos LibGen por parte de Meta a pesar de las preocupaciones dentro del equipo ejecutivo de IA de Meta (y otros en Meta) de que LibGen es 'un conjunto de datos que sabemos que está pirateado'", dijeron los abogados de los demandantes en una presentación del miércoles. A pesar de estas señales de advertencia, la demanda alega que, "después de la escalada", Zuckerberg dio luz verde al equipo de IA de Meta para proceder con el uso del controvertido conjunto de datos.
Los representantes de Meta no respondieron inmediatamente a la solicitud de comentarios de Decrypt.
LibGen, abreviatura de Library Genesis, es una plataforma en línea que proporciona acceso gratuito a libros, documentos académicos, artículos y otras publicaciones escritas sin cumplir adecuadamente con las leyes de derechos de autor. Opera como una "biblioteca en la sombra", ofreciendo estos materiales sin autorización de editores o titulares de derechos de autor. Actualmente, aloja más de 33 millones de libros y más de 85 millones de artículos.
La demanda alega que Meta intentó mantener esto en secreto hasta el último momento posible. Solo dos horas antes de la fecha límite de investigación de hechos, el 13 de diciembre de 2024, la compañía reveló lo que los demandantes describen como "algunos de los documentos internos más incriminatorios que ha producido hasta la fecha".
Los propios ingenieros de Meta parecían incómodos con el plan, según declaraciones en los documentos judiciales. El grupo de autores alega que los mensajes internos muestran que los ingenieros de Meta dudaron en descargar el material pirateado, con uno señalando que "descargar torrents desde una laptop corporativa [propiedad de Meta] no se siente correcto (emoji sonriente)". Sin embargo, procedieron no solo a descargar los libros, sino también a eliminar sistemáticamente la información de derechos de autor para prepararlos para el entrenamiento de IA, según afirma la demanda.

Sarah Silverman Demanda a Meta y OpenAI Por Entrenar Modelos de IA Con su Libro
La comediante Sarah Silverman se ha unido a dos novelistas para presentar un caso potencialmente innovador contra Meta y OpenAI, alegando que su material con derechos de autor fue utilizado para entrenar chatbots sin permiso. Las demandas colectivas presentadas por Silverman junto con los autores Christopher Golden y Richard Kadrey, afirman que sus libros fueron "ingeridos" para entrenar a ChatGPT de OpenAI y LLaMA de Meta sin su permiso, según documentos presentados a un tribunal de San Francis...
Las últimas presentaciones en la demanda pintan la imagen de una empresa plenamente consciente de los riesgos: Un memo interno advertía que "la cobertura mediática que sugiera que hemos usado un conjunto de datos que sabemos que está pirateado, como LibGen, puede socavar nuestra posición negociadora con los reguladores". Sin embargo, Meta procedió de todos modos, tanto descargando como distribuyendo (o "sembrando") el contenido pirateado a través de redes de torrents en enero de 2024, según la demanda.
Cuando fue interrogado sobre estas actividades en una declaración, Zuckerberg pareció distanciarse de la decisión, testificando que tal piratería levantaría "muchas señales de alarma" y "parece algo malo".
Los documentos judiciales también sugieren que el enfoque de Meta para manejar información con derechos de autor prestó más atención al entrenamiento del modelo que a las reglas de derechos de autor. Según la presentación, un ingeniero "filtró [...] líneas de derechos de autor y otros datos de LibGen para preparar una versión sin CMI para entrenar a Llama". Esta eliminación sistemática de información de derechos de autor podría fortalecer las afirmaciones de los autores de que Meta intentó conscientemente ocultar su uso de materiales pirateados.
Editor de Video con IA de Meta Llegará a Instagram para Hacerte Cuestionar lo Que es Real
Meta traerá sus trucos de video con IA a Instagram, con nuevas funciones que permitirán a los usuarios modificar sus videos simplemente usando texto para modificar imágenes—desde agregar objetos hasta cambiar fondos, y hacer prácticamente cualquier cosa que puedas imaginar. "Estoy muy emocionado con Movie Gen, nuestro modelo de investigación de IA temprano que te permitirá cambiar casi cualquier aspecto de tus videos con un simple comando de texto", dijo el director de Instagram Adam Mosseri en...
Las revelaciones llegan en un momento crucial para las ambiciones de IA de Meta. La compañía ha estado presionando fuerte para competir con OpenAI y Google en el espacio de IA, siendo Llama 3.2 el LLM de código abierto más popular, y Meta AI un sólido competidor gratuito de ChatGPT con características similares.
La mayoría de estas empresas de inteligencia artificial están enfrentando batallas legales debido a sus prácticas cuestionables cuando se trata de entrenar sus grandes modelos de lenguaje. Meta ya fue demandada por otro grupo de autores por infracciones de derechos de autor, OpenAI actualmente enfrenta diferentes demandas por entrenar sus LLMs con material con derechos de autor, y Anthropic también está enfrentando diferentes acusaciones de autores y compositores.
Pero en general, los emprendedores tecnológicos y creadores han estado en pie de guerra desde que la inteligencia artificial generativa explotó en popularidad. Actualmente, hay docenas de demandas diferentes contra empresas de IA por utilizar material con derechos de autor para entrenar sus modelos. Pero como sucede con la mayoría de las cosas en vanguardia, tendremos que esperar y ver qué dicen los tribunales al respecto.