ti-enxame.com

O Google armazena em cache o robots.txt?

Adicionei um arquivo robots.txt a um dos meus sites há uma semana, o que deveria ter impedido o Googlebot de tentar buscar determinados URLs. No entanto, neste fim de semana, vejo o Googlebot carregando esses URLs exatos.

O Google armazena em cache robots.txt e, em caso afirmativo, deveria?

17
Quog

Eu recomendo fortemente o registro do seu site com Google Search Console (anteriormente Ferramentas do Google para webmasters) . Há uma seção de acesso ao rastreador na configuração do site que informa quando o último robots.txt foi baixado pela última vez. A ferramenta também fornece muitos detalhes sobre como os rastreadores estão vendo seu site, o que está bloqueado ou não está funcionando e onde você está aparecendo nas consultas do Google.

Pelo que sei, o Google baixa o robots.txt com frequência. O site do Google Search Console também permite remover especificamente URLs do índice, para que você possa remover aqueles que estão bloqueando agora.

13
danivovich

Perseverar. Mudei do robots.txt para o meta noindex, nofollow. Para que a meta funcionasse, os endereços bloqueados no robots.txt precisavam ser desbloqueados primeiro.

Fiz isso brutalmente, excluindo o robots.txt completamente (e detalhando-o no webmaster do google).

O processo de remoção do robots.txt, conforme visto na ferramenta para webmasters (número de páginas bloqueadas), levou 10 semanas para ser concluído, dos quais o volume foi removido apenas pelo Google nas últimas duas semanas.

3
araldh

Estados da documentação do Google que eles geralmente armazenam em cache robots.txt por um dia, mas podem usá-lo por mais tempo se receberem erros ao tentar atualizá-lo.

Uma solicitação robots.txt geralmente é armazenada em cache por até um dia, mas pode ser armazenada em cache por mais tempo em situações em que a atualização da versão em cache não é possível (por exemplo, devido a tempos limite ou erros 5xx). A resposta em cache pode ser compartilhada por diferentes rastreadores. O Google pode aumentar ou diminuir a vida útil do cache com base nos cabeçalhos HTTP de controle de cache com idade máxima.

2
Stephen Ostermiller

Sim, o Google obviamente armazenará em cache robots.txt até certo ponto - ele não será baixado toda vez que quiser visualizar uma página. Por quanto tempo o armazena em cache, não sei. No entanto, se você tiver um cabeçalho Expira longo, o Googlebot poderá demorar muito mais para verificar o arquivo.

Outro problema pode ser um arquivo mal configurado. Nas Ferramentas do Google para webmasters que danivovich sugere, existe um verificador robots.txt. Ele informará quais tipos de páginas estão bloqueados e quais estão corretos.

2
DisgruntledGoat

Sim. Eles dizem que normalmente o atualizam uma vez por dia, mas alguns sugeriram que também podem verificá-lo após um certo número de acessos à página (100?), Para que sites mais ocupados sejam verificados com mais frequência.

Veja https://webmasters.stackexchange.com/a/29946 e o vídeo que o @DisgruntedGoat compartilhou acima http://youtube.com/watch?v=I2giR-WKUfY =.

1
studgeek

Pelo que posso ver no cache acessível ao usuário, o que você precisa fazer é digitar o URL do seu arquivo robots.txt em uma Pesquisa do Google e clicar na pequena seta suspensa verde e clicar em ' armazenado em cache "(veja a imagem abaixo), fornecerá a versão mais recente dessa página nos servidores do Google.

enter image description here

1
sam