User-Agent

Controlar el User-Agent

En un grupo de telegram privado en el que estoy con unos amigos ha saltado un tema que me parece muy interesante y básicamente decía que el contenido de Internet está siendo absorbido por las IAs y que al final llegaremos a un mundo de contenido de pago.

El tema social es muy interesante, pero a mi me ha llamado la atención el tema de los bots, porque se hablaba de un bot llamado CCBot que debe de ser un bot con un gusto excelente porque por esta web ya ha pasado, de hecho este año lleva ya 688 visitas, que no son muchas, pero sí las suficientes para haber visto lo que le interesaba y haberlo procesado.

Además tenemos el bot GPTBot que ha visitado este humilde blog ya 1495 veces.

No se qué hará ese bot en concreto, pero parece ser que alimenta a Common Crawl, uno de los mayores conjuntos de datos de IA. El bot BGPBot supongo que como su nombre indica es el bot de ChatGPT y GPT-4.

El tema aquí está en que si esos bots revisan tu web y luego sirven el contenido desde sus aplicaciones, por supuesto sin mencionar desde donde lo han obtenido, al final la gente va a dejar de revisar las webs.

Ante esto hay quien prefiere bloquear estos bots, realmente los user-agent que usan, ¿pero como se hace?, simplemente modificando en el .htaccess de tu web y añadiendo un par de líneas como estas:

#BLOQUEAR CRAWLERS INDESEADOS
RewriteCond %{HTTP_USER_AGENT} (CCBot|GPTBot) [NC]
RewriteRule .* - [R=403,L]

Obviamente a la lista podéis añadir todos aquellos bots que consideréis indeseables para vuestra web.

Ahora, ¿esto sirve para algo? Pues sí, si una visita se identifica con un bot de ese tipo le dará un 403 y no podrá cargar la web.

Todo tiene su user-agent, por ejemplo, si usáis Firefox el user-agent será Mozilla/5.0, pero esto es cambiable, para hacerlo podéis seguir los siguientes pasos:

  1. Abrir about:config
  2. Aceptar el aviso
  3. Buscar general.useragent.override, que no va a estar.
  4. Pinchar en cadena y en el botón +
  5. Ahora te saldrá un recuadro para rellenar, ahí puedes poner el user-agent que quieras

Una vez cambiado el user-agent cuando visites una web saldrá el user-agent que le hayas puesto ahí.

Foto de cabecera de Mat Kedzia: https://www.pexels.com/es-es/foto/foto-de-primer-plano-de-la-arana-2091017/