Los bots de IA impulsan algunas de las tecnologías más avanzadas que utilizamos hoy, desde motores de búsqueda hasta asistentes de IA. Sin bloqueo, su creciente presencia ha llevado a un número creciente de sitios web que los bloquean.
Hay un costo para los bots rastreando sus sitios web y hay un convenio social entre los motores de búsqueda y los propietarios de sitios web, donde los motores de búsqueda agregan valencia al expedir tráfico de narración a los sitios web. Esto es lo que evita que la mayoría de los sitios web bloqueen los motores de búsqueda como Google, incluso cuando Google parece tener la intención de tomar más de ese tráfico por sí mismos.
Cuando miramos el maquillaje de tráfico de ~ 35k sitios web En AHREFS Analytics, encontramos que AI envía solo el 0.1% del tráfico total de referencias, mucho detrás del de la búsqueda.

Creo que muchos propietarios de sitios quieren dejar que estos bots aprendan sobre su marca, sus negocios y sus productos y ofertas. Pero aunque muchas personas apostan a que estos sistemas son el futuro, actualmente corren el aventura de no amplificar suficiente valencia para los propietarios de sitios web.
El primer LLM en amplificar más valencia a los usuarios al mostrar impresiones y clics para los propietarios de sitios web probablemente tendrá una gran preeminencia. Las empresas informarán sobre las métricas de esa LLM, lo que probablemente aumentará la acogida y evitará que más sitios web bloqueen su bot.
Los bots están utilizando fortuna, utilizando los datos para capacitar a sus AIS y crear posibles problemas de privacidad. Como resultado, muchos sitios web eligen estrechar los bots de IA.
Observamos ~ 140 millones de sitios web y nuestros datos muestran que las tasas de obstrucción para los bots de IA han aumentado significativamente durante el año pasado. Quiero dar un gran agradecimiento a nuestro estudiado de datos Xibeijia guan para extraer estos datos.
- El número de bots de IA se ha duplicado Desde agosto de 2023, con 21 bots de IA principales ahora activos en la web.
- GPTBOT (OpenAI) es el bot de IA más bloqueadocon el 5.89% de todos los sitios web que los bloquean.
- Claudebot (antrópico) vio el veterano crecimiento en las tasas de obstrucciónaumentando en un 32,67% durante el año pasado.
Los bots más bloqueados igualmente son los más populares. Es probable que los bots menos conocidos estén menos bloqueados porque son menos conocidos y menos activos.
Observamos el número total de sitios web que bloquean los bots. Hay muchas formas de estrechar bots con robots.txt, y esto representa a todos ellos, incluidos:
- Bloques explícitosdonde se menciona y no se permite el bot
- Bloques generalesdonde se pueden estrechar todos los bots
- Cualquier instancia en los que un Directiva permitió el botluego de estrechar todos los bots
Advertencias: esto no incluye ningún otro tipo de piedra, como firewalls o bloques IP.
Como mencioné anteriormente, el bot más bloqueado es gptbot. Es el bot de IA más activo según Radar de cúmulo.


Existe una correlación positiva moderada entre la tasa de solicitud y la tasa de obstrucción para estos bots. Los bots que hacen más solicitudes tienden a bloquearse con más frecuencia. Los números nerd son 0.512 coeficiente de correlación de Pearson, valencia p de 0.0149, y esto es estadísticamente significativo al nivel del 5%.


Aquí están los datos para los bloques generales:


Aquí está el número total de sitios web que bloquean los bots de IA:


Aquí están los datos:
Nombre de bot | Contar | Porcentaje % | Cámara de bot |
---|---|---|---|
Gptbot | 8245987 | 5.89 | Opadai |
Ccbot | 8188656 | 5.85 | Rastreo global |
Amazonbot | 8082636 | 5.78 | Amazonas |
Bytepider | 8024980 | 5.74 | Byte |
Claudebot | 8023055 | 5.74 | Antrópico |
Google-extendido | 7989344 | 5.71 | |
antrópico-AI | 7963740 | 5.69 | Antrópico |
Facebookbot | 7931812 | 5.67 | Meta |
omgili | 7911471 | 5.66 | Webz.io |
Claude-Web | 7909953 | 5.65 | Antrópico |
cohere-ai | 7894417 | 5.64 | Sumarse |
Chatgpt-user | 7890973 | 5.64 | Opadai |
Applebot-extendido | 7888105 | 5.64 | Manzana |
Metaexternalagente | 7886636 | 5.64 | Meta |
Diffbot | 7855329 | 5.62 | Diffbot |
Perplejidad | 7844977 | 5.61 | Perplejidad |
Timbot | 7818696 | 5.59 | Timpi |
Manzana | 7768055 | 5.55 | Manzana |
Oai-searchbot | 7753426 | 5.54 | Opadai |
Webzio-extendido | 7745014 | 5.54 | Webz.io |
Metaexternalfetcher | 7744251 | 5.54 | Meta |
Botaro de canguro | 7739707 | 5.53 | Kangaroo LLM |
Se vuelve un poco más complicado. Para lo precedente, observamos el archivo principal de robots.txt para un sitio web, pero cada subdominio puede tener su propio conjunto de instrucciones. Si observamos los robots ~ 461M.txt en total, entonces el % de piedra total para GPTBOT sube al 7.3 %.
AI BOT Bloques con el tiempo
Más sitios de Traffic-Trafficked comenzaron a estrechar los bots de IA en 2024, pero la tendencia está disminuyendo en dirección a el final del año. Parece que la disminución en su mayoría proviene de bloques genéricos. La tendencia para los bots de IA está aumentando y te lo mostraré en un minuto.


¿Ciertos tipos de sitios bloquean más los bots de IA?
Así es como se descompone para cada bot individual en diferentes categorías de sitios web. En sinceridad esperaba que las informativo estuvieran más bloqueadas que otras categorías porque había muchas historias sobre sitios de informativo que bloquean estos bots, pero las artes y el entretenimiento (45% bloqueados) y la ley y el gobierno (42% bloqueados) los bloquearon más.


La osadía de estrechar los bots de IA varía según la industria. Puede suceder una serie de razones únicas para esto. Estos son poco especulativos:
- Artes y entretenimiento: aversiones éticas, renuencia a convertirse en datos de capacitación.
- Libros y letras: Copyright.
- Ley y gobierno: preocupaciones legales, cumplimiento.
- Telediario y medios de comunicación: evitar que sus artículos se utilicen para capacitar a los modelos de IA que podrían competir con su periodismo y quitar sus ingresos.
- Compras: precaver el raspado de precios o el monitoreo de inventario por parte de los competidores.
- Deportes: Similar a las informativo y los medios de comunicación sobre los temores de ingresos.
Para esta medida, solo estamos mirando los casos en los que no se permite un bot en particular. No incluye ninguna confesión o casos generales en los que solo se puedan permitir ciertos bots. En estos casos, los propietarios de sitios web hicieron todo lo posible para estrechar específicamente ciertos bots.
Nuevamente, GPTBot es el más dirigido, seguido de cerca por el bot de Crawl Common. Los datos de rastreo comunes probablemente se usan como fuente de datos para la mayoría de los LLM.
Aquí están los bots de IA más bloqueados con sitios web específicamente dirigidos a ellos:


Aquí están los datos para la cantidad de sitios web que los bloquean:


Aquí están los datos:
Nombre de bot | Contar | Porcentaje % | Cámara de bot |
---|---|---|---|
Gptbot | 693639 | 0.5 | Opadai |
Ccbot | 682861 | 0.49 | Rastreo global |
Amazonbot | 469086 | 0.34 | Amazonas |
Bytepider | 461706 | 0.33 | Byte |
Google-extendido | 415821 | 0.3 | |
Claudebot | 393511 | 0.28 | Antrópico |
antrópico-AI | 383176 | 0.27 | Antrópico |
Facebookbot | 361803 | 0.26 | Meta |
omgili | 322502 | 0.23 | Webz.io |
Chatgpt-user | 310430 | 0.22 | Opadai |
cohere-ai | 306385 | 0.22 | Sumarse |
Claude-Web | 276411 | 0.2 | Antrópico |
Applebot-extendido | 258451 | 0.18 | Manzana |
Metaexternalagente | 245176 | 0.18 | Meta |
Perplejidad | 214488 | 0.15 | Perplejidad |
Diffbot | 213828 | 0.15 | Diffbot |
Timbot | 174434 | 0.12 | Timpi |
Manzana | 163148 | 0.12 | Manzana |
Oai-searchbot | 110376 | 0.08 | Opadai |
Webzio-extendido | 100572 | 0.07 | Webz.io |
Metaexternalfetcher | 99993 | 0.07 | Meta |
Botaro de canguro | 95056 | 0.07 | Kangaroo LLM |
Bloques explícitos de bots de IA con el tiempo
Como puede ver, los bots de IA comienzan a ser bloqueados por muchos más sitios web más traficados.


El número de bots de IA más del doble en poco más de un año, del 10 en agosto de 2023 al 21 de diciembre de 2024. Más nuevos participantes en el mercado significan más bots, todos los fortuna para rastrear sitios web.
Claudebot tuvo el crecimiento más rápido de cualquier rastreador en el extremo año.


Aquí están los datos:
Nombre de bot | Crecimiento % | Crecimiento categórico |
---|---|---|
Claudebot | 32.67% | 0.85 |
antrópico-AI | 25.14% | 0.67 |
Claude-Web | 20.66% | 0.54 |
bytepider | 19.57% | 0.54 |
chatgpt-user | 15.52% | 0.47 |
perplejidad | 15.37% | 0.4 |
gptbot | 13.38% | 0.53 |
cohere-ai | 12.45% | 0.32 |
Facebookbot | 11.71% | 0.32 |
ccbot | 11.41% | 0.44 |
Amazonbot | 10.22% | 0.3 |
Google-extendido | 10.07% | 0.3 |
diffbot | 8.98% | 0.23 |
omgili | 8.96% | 0.25 |
Applebot-extendido | 7.11% | 0.18 |
metaexternalagente | 5.90% | 0.15 |
oai-searchbot | 2.17% | 0.06 |
timbot | 0.01% | 0 |
webzio-extendido | -1.69% | -0.04 |
manzana | -3.32% | -0.09 |
metaexternalfetcher | -4.32% | -0.11 |
Botaro de canguro | -5.89% | -0.15 |
Pensamientos finales
Será interesante ver cómo evoluciona la tasa de bloques a medida que cada vez más de estos rastreadores comienzan a usar una cantidad cada vez veterano de fortuna. ¿Podrán cumplir con ese convenio social con los propietarios de sitios web y enviarles más tráfico, o elegirán perdurar ese tráfico para ellos mismos?
Creo que si van por el enfoque de edén amurallado, más sitios terminarán bloqueando los bots y estos sistemas tendrán que enriquecer sitios web por paso a sus datos, o los bots pueden terminar rompiendo los estándares web e ignorando los robots. Ha habido algunos informes de algunos bots de IA que ignoran los robots. Bloques de txt, lo que establece un precedente peligroso.
¿Cuál es tu opinión? ¿Los está bloqueando en su sitio o ve valencia al permitirles paso? Avísame en nudo o LinkedIn.