En Resumen

  • Meta usó libros pirateados de LibGen para entrenar su IA, según documentos judiciales presentados por un grupo de autores.
  • Ingenieros de Meta eliminaron datos de derechos de autor antes de entrenar el modelo Llama, pese a sus dudas sobre la legalidad.
  • Presuntamente, Zuckerberg aprobó el uso de los libros pirateados pese a advertencias internas, pero luego afirmó que desconocía los detalles exactos.

Mark Zuckerberg aprobó el uso de libros pirateados para entrenar Meta AI, incluso después de que su propio equipo advirtiera que el material fue obtenido ilegalmente, según alegan un grupo de autores en una reciente presentación judicial.

Las acusaciones provienen de una demanda por infracción de derechos de autor presentada por un grupo de autores, incluyendo a la comediante Sarah Silverman, Christopher Golden y Richard Kadrey en una corte federal de California en julio de 2023. El grupo alegó que Meta usó indebidamente sus libros para entrenar su Large Language Model (LLM) Llama, y están solicitando daños y una orden judicial para impedir que Meta use sus obras. El juez del caso desestimó la mayoría de las reclamaciones de los autores en noviembre del mismo año, pero estas recientes alegaciones podrían dar nueva vida a la disputa legal.

"El CEO de Meta, Mark Zuckerberg, aprobó el uso del conjunto de datos LibGen por parte de Meta a pesar de las preocupaciones dentro del equipo ejecutivo de IA de Meta (y otros en Meta) de que LibGen es 'un conjunto de datos que sabemos que está pirateado'", dijeron los abogados de los demandantes en una presentación del miércoles. A pesar de estas señales de advertencia, la demanda alega que, "después de la escalada", Zuckerberg dio luz verde al equipo de IA de Meta para proceder con el uso del controvertido conjunto de datos.

Los representantes de Meta no respondieron inmediatamente a la solicitud de comentarios de Decrypt.

LibGen, abreviatura de Library Genesis, es una plataforma en línea que proporciona acceso gratuito a libros, documentos académicos, artículos y otras publicaciones escritas sin cumplir adecuadamente con las leyes de derechos de autor. Opera como una "biblioteca en la sombra", ofreciendo estos materiales sin autorización de editores o titulares de derechos de autor. Actualmente, aloja más de 33 millones de libros y más de 85 millones de artículos.

La demanda alega que Meta intentó mantener esto en secreto hasta el último momento posible. Solo dos horas antes de la fecha límite de investigación de hechos, el 13 de diciembre de 2024, la compañía reveló lo que los demandantes describen como "algunos de los documentos internos más incriminatorios que ha producido hasta la fecha".

Los propios ingenieros de Meta parecían incómodos con el plan, según declaraciones en los documentos judiciales. El grupo de autores alega que los mensajes internos muestran que los ingenieros de Meta dudaron en descargar el material pirateado, con uno señalando que "descargar torrents desde una laptop corporativa [propiedad de Meta] no se siente correcto (emoji sonriente)". Sin embargo, procedieron no solo a descargar los libros, sino también a eliminar sistemáticamente la información de derechos de autor para prepararlos para el entrenamiento de IA, según afirma la demanda.

Las últimas presentaciones en la demanda pintan la imagen de una empresa plenamente consciente de los riesgos: Un memo interno advertía que "la cobertura mediática que sugiera que hemos usado un conjunto de datos que sabemos que está pirateado, como LibGen, puede socavar nuestra posición negociadora con los reguladores". Sin embargo, Meta procedió de todos modos, tanto descargando como distribuyendo (o "sembrando") el contenido pirateado a través de redes de torrents en enero de 2024, según la demanda.

Cuando fue interrogado sobre estas actividades en una declaración, Zuckerberg pareció distanciarse de la decisión, testificando que tal piratería levantaría "muchas señales de alarma" y "parece algo malo".

Los documentos judiciales también sugieren que el enfoque de Meta para manejar información con derechos de autor prestó más atención al entrenamiento del modelo que a las reglas de derechos de autor. Según la presentación, un ingeniero "filtró [...] líneas de derechos de autor y otros datos de LibGen para preparar una versión sin CMI para entrenar a Llama". Esta eliminación sistemática de información de derechos de autor podría fortalecer las afirmaciones de los autores de que Meta intentó conscientemente ocultar su uso de materiales pirateados.

Las revelaciones llegan en un momento crucial para las ambiciones de IA de Meta. La compañía ha estado presionando fuerte para competir con OpenAI y Google en el espacio de IA, siendo Llama 3.2 el LLM de código abierto más popular, y Meta AI un sólido competidor gratuito de ChatGPT con características similares.

La mayoría de estas empresas de inteligencia artificial están enfrentando batallas legales debido a sus prácticas cuestionables cuando se trata de entrenar sus grandes modelos de lenguaje. Meta ya fue demandada por otro grupo de autores por infracciones de derechos de autor, OpenAI actualmente enfrenta diferentes demandas por entrenar sus LLMs con material con derechos de autor, y Anthropic también está enfrentando diferentes acusaciones de autores y compositores.

Pero en general, los emprendedores tecnológicos y creadores han estado en pie de guerra desde que la inteligencia artificial generativa explotó en popularidad. Actualmente, hay docenas de demandas diferentes contra empresas de IA por utilizar material con derechos de autor para entrenar sus modelos. Pero como sucede con la mayoría de las cosas en vanguardia, tendremos que esperar y ver qué dicen los tribunales al respecto.

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.