OpenAI, Google y Meta usan bots que extraen contenido para entrenar sus modelos sin pagar y no redireccionan a los usuarios a los sitios originales
18.07.2025 • 15:35hs • Guerra por el contenido
Guerra por el contenido
Pay per crawl: el modelo que quiere ponerle precio al contenido que usan las IA
Cloudflare, una de las principales compañías de infraestructura de TI, anunció un nuevo plan llamado "pay per crawl" (pago por rastreo), para que los sitios web cobren por cada vez que los bots de inteligencia artificial (IA) acceden a su información.
La iniciativa está pensada para enfrentar el uso no remunerado de contenido por parte de grandes plataformas como OpenAI, Google, Meta o Anthropic, cuyos bots rastrean millones de sitios para entrenar sus modelos de lenguaje.
Por ahora, fueron principalmente los medios los que tomaron medidas para frenar el uso indebido de sus contenidos, con grupos como Gannett, Condé Nast y Dotdash Meredith, a la cabeza que ya bloquearon el acceso a sus contenidos.
Sin embargo, Cloudflare promueve que las marcas también lo implementen, ya que ese rastreo sin condiciones puede terminar perjudicándolas. Según datos de la empresa, los beneficios que reciben las marcas a cambio son mínimos.
Además, la compañía relevó la cantidad de rastreos de que hacen estos bots vs. las veces que derivan al sitio en donde se encuentra la información:
- Los bots de OpenAI realizaron 1.700 rastreos por cada visita derivada a un sitio
- En el caso de Anthropic, esa relación fue de 73.000 a 1
Esto impacta directamente en la relación con los consumidores. Si un usuario consigue toda la información que necesita desde ChatGPT o Gemini, ni siquiera llega a visitar la web de la marca.
La IA se lleva mucho y devuelve muy poco
"Cuanto más interactúas con un derivado del producto en lugar del producto en sí, más se priva a la marca de una experiencia directa con el cliente", explicó Stephanie Cohen, directora de estrategia de Cloudflare.
Además, permitir acceso total a los bots puede ser riesgoso, ya que en muchos casos pueden malinterpretar datos, priorizar productos que no convienen o tomar contenido desactualizado.
En ese sentido, Cloudflare plantea bloquear ciertos rastreadores -sobre todo los que entrenan modelos de IA- sin afectar a los que sí devuelven valor, como los que hacen búsquedas en tiempo real.
"La gran mayoría de los bots que rastrean hoy sirven para entrenamiento de IA, no para búsqueda", aclaró Cohen.
El protocolo "pay per crawl" permite a los propietarios del sitio decidir qué contenido pueden tomar los bots y, además, cobrar por ese acceso. Se trata de pasar de un modelo de extracción unilateral a un acuerdo con condiciones claras.
"Básicamente le decís al bot: ‘Tengo este gran contenido en mi web, esto es lo que quiero que tomes’", explicó Allan Leinwand, CTO de Webflow, una de las empresas que ya adoptó esta solución.
Cómo funciona la propuesta de Cloudflare en empresas
Leinwand añadió que"es como cultivar una experiencia para los LLM, de la misma forma que antes lo hacías para humanos con el SEO".
Además de Cloudflare, surgen otras iniciativas para avanzar en este sentido.
Tollbit, por ejemplo, ofrece soluciones para ponerle un "muro de pago" al contenido.
Y el IAB Tech Lab trabaja en un marco técnico para garantizar un intercambio justo entre creadores y empresas de IA.
"El marco no se trata de un bloqueo generalizado", apuntó Anthony Katsur, CEO de IAB Tech Lab.
"Se trata de un acceso controlado y basado en permisos", completó,