E a guerra contra bots continua

Continuação do meu artigo anterior: “Por que eu bloqueei bots no meu site” e o resultado de alguns meses de labuta bloqueando bots e ataques DDOS no meu site.

[ Hits: 816 ]

Por: Cézar Augusto em 12/04/2024 | Blog: https://www.cezarcampos.com.br/


Piloto



Quem já leu o meu outro artigo sabe que eu fiz um bloqueio geral de todos os bots no meu site devido a roubos de conteúdo para treinos de modelos de linguagem.

Linux: E a guerra contra bots continua


O propósito desta postagem é mostrar o resultado deste bloqueio assim como alguns logs de acesso que captei nos últimos meses que podem ser interessantes para alguns webmasters de plantão. Além dos resultados quero discorrer sobre algumas ações tomadas e a motivação por trás de cada uma delas, assim como implicações éticas de manter um blog hospedado.

## O que

Meu site estava sendo atacado por bots desconhecidos de várias partes do mundo, por estar hospedado na Cloudflare grande parte dos ataques foram mitigados automaticamente. Por alguma razão desconhecida estavam tentando derrubar o meu site, mas alguns bots não eram simplesmente bots de ataque, alguns eram crawlers que usavam do meu conteúdo para alimentar inteligências artificiais.

## Quem

A maior parte dos bots vinha dos Estados Unidos, uma pequena parcela vinha da Singapura e a China enquanto o resto vinha de partes aleatórias do mundo, sendo metade dos bots benignos e a outra metade malignos.

### Bots benignos

Eu considero como benigno todo e aquele bot que coloca uma identificação em seu user-agent onde eu posso entrar em contato com o seu dono e pedir para me tirar da sua lista de scans,. Um deles foi um bot da Palo Alto Networks que possuía um endereço de e-mail para contato e eles foram super cordiais comigo.

Expanse, a Palo Alto Networks company,
searches across the global IPv4 space
multiple times per day to identify customers;
presences on the Internet.
If you would like to be excluded from our scans,
please send IP addresses/domains to: s******o@p**************s.com


Boa parte do tráfego que vinha dos bots benignos foi diminuída, entrei em contato com a maioria deles e todos me deram resposta.

We've added cezarcampos.com.br and zepintor.com.br to our excludelist.
It can take up to a week for the system to update excluded ranges and
domains, but once they propagate you will stop seeing connections from
our scanners. If you do still see activity after a week from our
ranges, please reach out
again with the time you observed scanning activity, and we'll
troubleshoot.


No entanto, nem todos os bots são assim.

### Bots malignos

A maioria dos bots malignos escaneavam diretórios nos meus sites para descobrir se é hospedado no Wordpress.
Linux: E a guerra contra bots continua

Isso no dia 24 de janeiro de 2024.

Outro detalhe é que esses bots usam protocolos mais antigos como HTTP/1.1, TLS 1.2 e IPv4. Raramente algum bot maligno aparecia nos registros usando algum IPv6. O que aparecia no user-agent em sua maioria eram imitações de navegadores populares como Chrome e Firefox, em nenhum caso o bot maligno se identificava com endereços de e-mail para contato.

## Onde

Agora vou lhes mostrar de que maneira os bots obtinham informações sobre os meus sites.

1- Mecanismos de busca

Os mecanismos de busca são usados pelos bots de inteligência artificial para encontrar sites de conteúdo para serem roubados, abaixo eu mostro as palavras-chave mais estranhas que levaram ao meu site de acordo com o Bing Webmasters.

Linux: E a guerra contra bots continua

É óbvio que os robôs não clicaram, por serem crawlers eles apenas copiam os endereços na memória e os acessam diretamente. Logicamente também, os robôs malignos não respeitavam o arquivo robots.txt.

# Conclusão

Se você quer manter um blog hoje em dia, considere adotar medidas para que o seu conteúdo não seja usado para treinar modelos de linguagem proprietários. Ao impedir que os robôs acessem o seu site, você também mitiga o treinamento dessas IAs. Considere comprar um domínio e usar um serviço gratuito como o da Cloudflare para impedir que os bots acessem seu site, não use Github pages ou qualquer outro serviço que não lhe ofereça proteção contra bots; caso você os use, você não terá nenhum controle sobre o que entra e sai do seu website. É isso.

Caso esteja interessado em obter mais dados sobre o meu caso, considere a leitura:

Why I blocked bots on my site - Por quê eu bloqueio bots no meu site?
   

Páginas do artigo
   1. Piloto
Outros artigos deste autor

Como Modificar a Tela do Bootloader do Android

Como fazer root em aparelhos Samsung

Como customizar sua ROM Android

i3 para computadores antigos

Como usar o Heimdall

Leitura recomendada

Adicionando Legendas em Vídeo de forma automática por Reconhecimento Automático de Fala

Tradução do artigo do filósofo Gottfried Wilhelm Leibniz sobre o sistema binário

Docalysis: Análise de Documentos com Inteligência Artificial

Como usar o ChatGPT para melhorar a educação dos seus filhos

Adicionando Legendas em Vídeo de forma automática por Reconhecimento Automático de Fala

  
Comentários
[1] Comentário enviado por Buckminster em 12/04/2024 - 18:49h

Bloqueio de bots no Apache:
Habilite o modo rewrite:
# a2enmod rewrite
# systemctl restart apache2

Coloque dentro do apache2.conf ou httpd.conf ou .htaccess (para quem usa essa #% $@%$ de htaccess):
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} MJ12bot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} AhrefsBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} SEMrushBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Bytespider [NC,OR]
RewriteCond %{HTTP_USER_AGENT} DotBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} MauiBot [NC]
RewriteRule .* - [F,L]
Salve e saia.
# systemctl restart apache2
Ou mais resumido:
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (gumgum-bot|postmanruntime|ag_dm_spider|scrapy|chimebot) [NC]
RewriteRule .* - [F,L]

Habilitará proteção contra alguns bots mais conhecidos, depois você pesquisa para outros bots que forem aparecendo.
Monitore os logs.
Apesar de que proteção completa contra bots (ou qualquer outras praga de internet) é impossível.


[b]_________________________________________________________[/b]
[i]Always listen the Buck![/i]
Enquanto o cursor estiver pulsando, há vida!

[2] Comentário enviado por cizordj em 14/04/2024 - 18:21h

Obrigado pela contribuição @Buckminster

[3] Comentário enviado por coelhoposa em 23/04/2024 - 21:27h

Para quem usa o Wordpress como CMS, tem o Kudurru que faz esse papel de Bloquear os Bots: https://kudurru.ai/


====
Foxbunny [Lenovo Thinkpad L390 | Intel Core i5 8365U @ 1,6 GHz ~ 1,9 GHz | 8 GB de RAM DDR4 @ 2400 MHz | Intel UHD Graphics 620 | SSD LiteOn CV8 256 GB | Ubuntu 23.10]


Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts