ti-enxame.com

Bloqueando todos os mecanismos de pesquisa, exceto os grandes

Eu gostaria de, de alguma forma, ser capaz de bloquear todos os mecanismos de pesquisa, exceto Google, Yahoo e Bing (e sites relacionados, como o Google Images) de rastrearem meu site, pois consomem muito servidor e largura de banda, mas não trazem tráfego.

Isso é fácil ou difícil? Seria bom se alguém mantivesse uma lista de pequenos mecanismos de pesquisa que poderiam ser colados em um arquivo robots.txt para bloqueá-los.

Além disso, percebo que não posso bloquear rastreadores que ignoram o robots.txt ou sites de rastreio e rastreamento clandestino, mas não é isso que eu quero. Eu só quero bloquear todos os Altavistas, Hotbots, Lycos (eles ainda existem) e os rastreadores experimentais da universidade de desperdiçarem meu tempo.

2
Craig

O que você tentou até agora?

Usando o gerador de robots.txt das ferramentas para webmasters Eu fiz isso:

User-agent: *
Disallow: /

User-agent: Googlebot
Allow: /

Mas eu não testei.

3
delete

Qual é o tamanho de um problema realmente?

Os bots com os quais você deve se preocupar são aqueles que não seguem as regras e que fingem ser visitantes regulares.

O tráfego do Search Engine é legítimo e, como Dan apontou, o Google também começou como um pequeno projeto universitário. Não é realmente justo discriminar os pequenos, e possivelmente não ser inteligente a longo prazo.

A resposta de Kinopiko funcionará e as ferramentas para webmasters do Google permitirão que você crie e teste seu robot.txt (configuração do site, acesso ao rastreador), mas acho que se o tráfego de mecanismos de pesquisa genuínos for um problema para você, pode ser que sua hospedagem atual solução não é um bom negócio.

3
Sylver

Para aqueles que não seguem as regras, tente encontrá-los em seus logs e depois bloqueá-los por IP.

Geralmente, você pode identificar um bot pelo fato de ler as páginas muito rápido para ser humano.

1
Sruly