Google Ansía Más Datos Para Entrenar su IA, Pero ¿A Qué Costo?

Google está listo para utilizar tu contenido en línea para entrenar sus modelos de IA, a menos que se le indique lo contrario.

Por Jose Antonio Lanz

Aug 10, 2023

4 min lectura

Image created by Decrypt using AI

Add on Google

En Resumen

Google busca usar contenido de editores web para mejorar su IA, sin embargo, permite la exclusión voluntaria a quienes no deseen compartir su información.
Críticos alegan que la política de exclusión voluntaria de Google contradice las leyes de derechos de autor.
Google argumenta un acceso amplio a los datos para el desarrollo de la IA en debate sobre regulación australiana.

Google está dejando claro que tiene la intención de aprovechar el contenido de los editores web para avanzar en sus sistemas de inteligencia artificial. El gigante tecnológico y de búsqueda, explica que las empresas deben optar por no participar —al igual que lo hacen actualmente para la indexación de motores de búsqueda—, si no desean que se comparta su material.

Los críticos de este modelo de exclusión voluntaria argumentan que la política trastorna las leyes de derechos de autor que ponen la responsabilidad en las entidades que buscan utilizar material con derechos de autor, en lugar de los propios titulares de los derechos de autor.

El plan de Google se reveló en su presentación a la consulta del gobierno australiano sobre la regulación de aplicaciones de IA de alto riesgo. Si bien Australia ha estado considerando prohibir ciertos usos problemáticos de la IA, como la desinformación y la discriminación, Google argumenta que los desarrolladores de IA necesitan un amplio acceso a los datos.

Según informó The Guardian, Google le dijo a los responsables políticos australianos que "la ley de derechos de autor debería permitir el uso apropiado y justo de contenido con derechos de autor" para el entrenamiento de IA. La compañía mencionó su rastreador de contenido estandarizado llamado robots.txt, que permite a los editores especificar secciones de sus sitios cerrados a los rastreadores web.

Google no ofreció detalles sobre cómo funcionaría la opción de exclusión. Además, en una publicación de blog, aludió vagamente a nuevas "normas y protocolos" que permitirían a los creadores web elegir su nivel de participación de IA.

La empresa ha estado presionando a Australia desde mayo para flexibilizar las reglas de derechos de autor después de lanzar su chatbot de IA "Bard" en el país. Sin embargo, Google no está solo en sus ambiciones de minería de datos. OpenAI, creador del destacado chatbot ChatGPT, tiene como objetivo expandir su conjunto de datos de entrenamiento con un nuevo rastreador web llamado GPTBot que, al igual que Google, adopta un modelo de exclusión voluntaria que requiere que los editores agreguen una regla de "no permitir" si no desean que se extraiga contenido.

Esta es una práctica estándar para muchas grandes empresas de tecnología que dependen de la IA (algoritmos de aprendizaje profundo y aprendizaje automático) para mapear los gustos de sus usuarios y ofrecer contenido y anuncios acorde.

Esta búsqueda de más datos se produce en medio de la explosión de popularidad de la IA. Las capacidades de sistemas como ChatGPT y Bard de Google se basan en la ingestión de conjuntos de datos masivos de texto, imágenes y videos. Según OpenAI, "GPT-4 ha aprendido de una variedad de fuentes de datos con licencia, creadas y disponibles públicamente, que pueden incluir información personal disponible públicamente".

Pero algunos expertos argumentan que el rastreo web sin permiso plantea problemas de derechos de autor y éticos. Editores como News Corp. ya están en conversaciones con empresas de IA para buscar el pago por el uso de su contenido. AFP acaba de publicar una carta abierta sobre este mismo tema.

"La inteligencia artificial generativa y los modelos de lenguaje grandes [Large Language Model (LLM)] también suelen entrenarse utilizando contenido multimedia propietario, en el cual los editores y otros invierten grandes cantidades de tiempo y recursos para producir", dice la carta. "Estas prácticas socavan los modelos de negocio fundamentales de la industria de los medios, que se basan en la lectura y visualización (como las suscripciones), la licencia y la publicidad.

"Además de violar la ley de derechos de autor, el impacto resultante es reducir significativamente la diversidad de los medios y socavar la viabilidad financiera de las empresas para invertir en cobertura mediática, lo que reduce aún más el acceso del público a información de alta calidad y confiable", agregó la agencia de medios.

El debate ejemplifica la tensión entre el avance de la inteligencia artificial a través del acceso ilimitado a datos y el respeto a los derechos de propiedad. Por un lado, cuanto más contenido se consume, más capaces se vuelven estos sistemas. Pero estas empresas también se benefician del trabajo de otros sin compartir los beneficios.

Alcanzar el equilibrio adecuado no será fácil. La propuesta de Google básicamente le dice a los editores "entrega tu trabajo a nuestro IA o toma medidas para optar por no hacerlo". Para los editores más pequeños con recursos o conocimientos limitados, optar por no hacerlo puede resultar desafiante.

El examen de la ética de la IA en Australia brinda una oportunidad para dar forma a la evolución de estas tecnologías. Pero si el discurso público cede ante los gigantes tecnológicos ávidos de datos que persiguen su propio interés, podría establecerse un statu quo en el que las creaciones sean absorbidas por completo por los sistemas de IA a menos que los creadores hagan malabarismos para detenerlo.

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.

Coin Prices