Google Ansía Más Datos Para Entrenar su IA, Pero ¿A Qué Costo?

Google está listo para utilizar tu contenido en línea para entrenar sus modelos de IA, a menos que se le indique lo contrario.

4 min lectura

Aug 10, 2023

Google está dejando claro que tiene la intención de aprovechar el contenido de los editores web para avanzar en sus sistemas de inteligencia artificial. El gigante tecnológico y de búsqueda, explica que las empresas deben optar por no participar —al igual que lo hacen actualmente para la indexación de motores de búsqueda—, si no desean que se comparta su material.

Los críticos de este modelo de exclusión voluntaria argumentan que la política trastorna las leyes de derechos de autor que ponen la responsabilidad en las entidades que buscan utilizar material con derechos de autor, en lugar de los propios titulares de los derechos de autor.

El plan de Google se reveló en su presentación a la consulta del gobierno australiano sobre la regulación de aplicaciones de IA de alto riesgo. Si bien Australia ha estado considerando prohibir ciertos usos problemáticos de la IA, como la desinformación y la discriminación, Google argumenta que los desarrolladores de IA necesitan un amplio acceso a los datos.

Según informó The Guardian, Google le dijo a los responsables políticos australianos que "la ley de derechos de autor debería permitir el uso apropiado y justo de contenido con derechos de autor" para el entrenamiento de IA. La compañía mencionó su rastreador de contenido estandarizado llamado robots.txt, que permite a los editores especificar secciones de sus sitios cerrados a los rastreadores web.

Google no ofreció detalles sobre cómo funcionaría la opción de exclusión. Además, en una publicación de blog, aludió vagamente a nuevas "normas y protocolos" que permitirían a los creadores web elegir su nivel de participación de IA.

La empresa ha estado presionando a Australia desde mayo para flexibilizar las reglas de derechos de autor después de lanzar su chatbot de IA "Bard" en el país. Sin embargo, Google no está solo en sus ambiciones de minería de datos. OpenAI, creador del destacado chatbot ChatGPT, tiene como objetivo expandir su conjunto de datos de entrenamiento con un nuevo rastreador web llamado GPTBot que, al igual que Google, adopta un modelo de exclusión voluntaria que requiere que los editores agreguen una regla de "no permitir" si no desean que se extraiga contenido.

Esta es una práctica estándar para muchas grandes empresas de tecnología que dependen de la IA (algoritmos de aprendizaje profundo y aprendizaje automático) para mapear los gustos de sus usuarios y ofrecer contenido y anuncios acorde.

Esta búsqueda de más datos se produce en medio de la explosión de popularidad de la IA. Las capacidades de sistemas como ChatGPT y Bard de Google se basan en la ingestión de conjuntos de datos masivos de texto, imágenes y videos. Según OpenAI, "GPT-4 ha aprendido de una variedad de fuentes de datos con licencia, creadas y disponibles públicamente, que pueden incluir información personal disponible públicamente".

Pero algunos expertos argumentan que el rastreo web sin permiso plantea problemas de derechos de autor y éticos. Editores como News Corp. ya están en conversaciones con empresas de IA para buscar el pago por el uso de su contenido. AFP acaba de publicar una carta abierta sobre este mismo tema.

"La inteligencia artificial generativa y los modelos de lenguaje grandes [Large Language Model (LLM)] también suelen entrenarse utilizando contenido multimedia propietario, en el cual los editores y otros invierten grandes cantidades de tiempo y recursos para producir", dice la carta. "Estas prácticas socavan los modelos de negocio fundamentales de la industria de los medios, que se basan en la lectura y visualización (como las suscripciones), la licencia y la publicidad.

"Además de violar la ley de derechos de autor, el impacto resultante es reducir significativamente la diversidad de los medios y socavar la viabilidad financiera de las empresas para invertir en cobertura mediática, lo que reduce aún más el acceso del público a información de alta calidad y confiable", agregó la agencia de medios.

El debate ejemplifica la tensión entre el avance de la inteligencia artificial a través del acceso ilimitado a datos y el respeto a los derechos de propiedad. Por un lado, cuanto más contenido se consume, más capaces se vuelven estos sistemas. Pero estas empresas también se benefician del trabajo de otros sin compartir los beneficios.

Alcanzar el equilibrio adecuado no será fácil. La propuesta de Google básicamente le dice a los editores "entrega tu trabajo a nuestro IA o toma medidas para optar por no hacerlo". Para los editores más pequeños con recursos o conocimientos limitados, optar por no hacerlo puede resultar desafiante.

El examen de la ética de la IA en Australia brinda una oportunidad para dar forma a la evolución de estas tecnologías. Pero si el discurso público cede ante los gigantes tecnológicos ávidos de datos que persiguen su propio interés, podría establecerse un statu quo en el que las creaciones sean absorbidas por completo por los sistemas de IA a menos que los creadores hagan malabarismos para detenerlo.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Get Email!

Noticias recomendados

Comité Bancario del Senado Aprueba la Ley CLARITY Pese a Tensiones por Negocios Cripto de Trump

El Comité Bancario del Senado votó para avanzar la Ley CLARITY, una pieza clave de legislación sobre criptomonedas, hacia una votación en el pleno del Senado. El jueves, los demócratas del Senado se dividieron en su apoyo a la Ley CLARITY durante la votación crucial, con dos miembros pro-cripto del partido votando a favor del histórico proyecto de ley cripto, y todos los demás votando en contra. El Sen. Ruben Gallego (D-AZ) y Angela Alsobrooks (D-MD) votaron a favor de la legislación, a pesar d...

Binance Retira su Solicitud de Licencia MiCA en Grecia, Dejando a Usuarios de la UE en la Incertidumbre

El exchange de criptomonedas líder, Binance, retiró formalmente su solicitud de licencia de Mercados de Criptoactivos (MiCA) en Grecia mientras busca cumplir con las regulaciones cripto de la Unión Europea, según anunció la firma el miércoles. El anuncio se produce apenas una semana después de que un informe de Reuters indicara que su solicitud iba a ser rechazada por el regulador financiero griego, la HCMC. "Binance ha decidido retirar su solicitud de licencia MiCA ante la Comisión Helénica de...

Falso Influencer Cripto Recibe 15 Meses de Prisión por Fraude de Staking en Telegram por $1,4 Millones

Un hombre de Nueva York que se hizo pasar por conocidos influencers cripto para estafar a inversionistas irá a prisión. Noman Saleem, de 39 años, de Queens y Levittown, fue sentenciado a 15 meses de prisión, seguidos de tres años de libertad supervisada, por su participación en un esquema de fraude electrónico, según informó el martes la Fiscalía Federal del Distrito de Maryland. La jueza de distrito Deborah K. Chasanow dictó la sentencia. A New York man received a federal-prison term for mimic...

Noticias

Cursos

Profundidades

Monedas

Videos