Recompensa Para Víctimas de Bots de IA: Cloudflare Permite Cobrar Por el Scraping de Datos
La herramienta de Cloudflare permite a los sitios web controlar el acceso de bots de IA y cobrar por el uso de contenido con la esperanza de combatir el scraping no autorizado.
Are bots manipulating Bitcoin's price? IMAGE: Shutterstock
Create an account to save your articles.
En Resumen
La empresa de servicios en la nube Cloudflare lanzó un nuevo conjunto de herramientas de inteligencia artificial para ayudar a los sitios web a detener el uso no autorizado por rastreadores de IA o cobrarles por acceder a sus datos.
La plataforma gratuita de Gestión de Bots de Cloudflare permite a los sitios web bloquear los bots de IA o cobrar una tarifa a los bots aprobados, generando ingresos por el contenido que se utiliza.
La herramienta de auditoría de IA también permite a los usuarios ver cómo se accede a su contenido, ayudando a identificar y gestionar el uso de sus datos por parte de rastreadores de IA.
La empresa de servicios en la nube con sede en San Francisco, Cloudflare, lanzó un nuevo conjunto de herramientas de inteligencia artificial que tiene como objetivo dar a los sitios web la capacidad de detener el uso no autorizado por rastreadores de IA, o cobrarles por acceder a sus datos.
“Lo que hemos presentado hoy es la capacidad para los propietarios de sitios y publicaciones en internet de decir, ‘este es el valor que espero recibir de mi sitio’”, dijo Sam Rhea, vicepresidente de Cloudflare, a Decrypt. “Si eres un LLM de IA y quieres escanear este contenido o entrenar contra él, o hacerlo parte de tus resultados de búsqueda, este es el valor que espero recibir por eso.”
Today, Cloudflare is releasing a set of tools to make it easy for site owners, creators, and publishers to take back control over how their content is made available to AI-related bots and crawlers. https://t.co/R239wtO3iB#BirthdayWeek
La plataforma gratuita de Gestión de Bots de Cloudflare permite a los sitios web no solo bloquear los bots de IA, sino también cobrar una tarifa a tantos bots como aprueben, obteniendo así ingresos por las plataformas que se alimentan de forma gratuita de su contenido.
La herramienta de auditoría de IA también brinda a los usuarios la capacidad de ver cómo se accede a su contenido.
Según explicó Rhea, a diferencia de los bots maliciosos que intentan bloquear sitios web o colarse antes que los clientes humanos que intentan acceder a un sitio web, los rastreadores de IA no tienen como objetivo dañar o robar, sino escanear contenido público para entrenar grandes modelos de lenguaje.
A veces, esos bots atribuyen la información de vuelta a la fuente, enviando plausiblemente tráfico valioso, dijo Rhea. “Pero otras veces, toman material, lo ponen en una licuadora y lo comparten como si fuera parte de una fuente genérica, sin ninguna cita. Eso me parece peligroso.”
Comenzar en un juego como Pixels puede ser difícil. Si bien no es súper complejo, puede parecer un juego inusual para los jugadores tradicionales o de “Web2” gracias a sus conexiones con criptomonedas y NFTs. Sin embargo, esta guía no tiene la intención de adentrarse en los aspectos de criptomonedas del juego.
Con o sin eso, aún necesitas poder entender el exitoso juego de agricultura de Ethereum que corre en la red de juegos Ronin, y comenzar a moverte en él si quieres ocuparte de esas otras co...
Rhea dijo que, según Cloudflare, que proporciona seguridad y optimización de rendimiento para sitios web, no hay una sola plataforma que domine la actividad de scraping de sitios web, agregando que varía según el tipo de contenido que se está raspando en un momento dado.
Los modelos de IA generativa requieren grandes cantidades de datos para funcionar e intentan proporcionar respuestas rápidas y precisas, así como crear imágenes, videos y música. Los rastreadores de IA son una industria en crecimiento e incluyen empresas como LAION, Defined.AI, Aleph Alpha y Replicate que proporcionan a los desarrolladores de IA conjuntos de datos pre-recopilados de texto, voz e imágenes. Según la firma de investigación de mercado Research Nester, se estima que la industria de software de raspado web alcanzará $2.450 millones para 2036.
El año pasado, Ed Newton-Rex, ex jefe de audio de Stability AI, renunció debido a cómo las plataformas de IA afirmaban que la ingestión de datos de sitios web era "uso justo".
"El 'uso justo' no fue diseñado teniendo en cuenta la IA generativa; entrenar modelos de IA generativa de esta manera me parece incorrecto", dijo. "Empresas valoradas en miles de millones de dólares están entrenando modelos de IA generativa en obras de creadores sin permiso, que luego se utilizan para crear nuevo contenido que en muchos casos puede competir con las obras originales."
Newton-Rex agregó: "No veo cómo esto puede ser aceptable en una sociedad que ha establecido la economía de las artes creativas de tal manera que los creadores dependen del derecho de autor."
I’ve resigned from my role leading the Audio team at Stability AI, because I don’t agree with the company’s opinion that training generative AI models on copyrighted works is ‘fair use’.
First off, I want to say that there are lots of people at Stability who are deeply…
Rhea dijo que los desarrolladores de IA más pequeños parecían dispuestos a pagar para recibir contenido seleccionado de sitios web.
“De las conversaciones que hemos tenido con proveedores de modelos fundamentales y nuevos participantes en el espacio, es que el tipo de océano de datos de alta calidad se está volviendo difícil de encontrar”, dijo, señalando que el contenido científico y matemático estaba especialmente en demanda.
Meta dio a conocer esta semana sus más recientes modelos de inteligencia artificial, lanzando el tan esperado LLM Llama-4 para desarrolladores, mientras adelantaba un modelo mucho más grande que aún está en entrenamiento. El modelo es de última generación, pero la compañía de Zuckerberg afirma que puede competir contra los mejores modelos de código cerrado sin necesidad de ningún ajuste fino.
"Estos modelos son nuestros mejores hasta ahora gracias a la destilación de Llama 4 Behemoth, un modelo...
El "Dire Wolf" se extinguió hace más de 10.000 años, pero el lunes, científicos de la empresa de genética Colossal Biosciences anunciaron que habían revivido la especie.
Inevitablemente, los traders de memecoins amantes de los perros aprovecharon la noticia, impulsando un token de Solana vinculado a estos cánidos hasta una capitalización de mercado de $13,61 millones.
Poco después de que un artículo de The New Yorker anunciara la noticia de la "desextinción" del Dire Wolf, se creó New Ancient DN...
La versión alfa de Midjourney v7, que se lanzó la semana pasada, llega en un momento en que el generador de imágenes una vez dominante está claramente perdiendo terreno. Aunque todavía cuenta con una enorme base de usuarios impulsada por Discord de unos 20 millones de personas, herramientas más nuevas como GPT-4o de OpenAI, Reve e Ideogram 3.0 lo han superado en realismo, precisión y funcionalidad.
El nuevo modelo marca la primera actualización importante de Midjourney en casi un año, introducie...