ti-enxame.com

Configuração incorreta da extensão Externallogin, causando problema de indexação do mecanismo de pesquisa

Breve visão geral

Meu site Joomla tem um problema estranho com os robôs de mecanismos de pesquisa. Eu verifiquei TODAS as coisas padrão que um webmaster pode fazer para garantir que não seja um problema trivial com o arquivo robots.txt ou outros parâmetros de otimização do mecanismo de pesquisa. O pessoal de TI da minha universidade não tem noção do que está acontecendo, assim como as pessoas que tentaram ajudar nos fóruns do Joomla.

Também fiz essa pergunta no Pro Webmasters stackexchange. Mas estou começando a suspeitar que possa haver alguma configuração oculta em algum lugar do Joomla causando o problema. Então, eu estou fazendo essa pergunta aqui para ver se há uma configuração que está faltando em algum lugar.

O problema real começa aqui.

O site em questão é: http://gsa.ece.umd.edu/ . É executado usando o Joomla 2.5.x (mais recente). O site estava em funcionamento desde meados de dezembro de 2013 e notei desde o início que o site não estava sendo indexado corretamente no Google. Especificamente, vejo a seguinte mensagem quando pesquiso o site no Google:

ECEGSA - University of Maryland

A description for this result is not available because of this site's robots.txt – learn more.

A coisa é em dezembro até março, usei o arquivo robots.txt padrão do Joomla, que é:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/

Nada ali deve impedir o Google de pesquisar no meu site. E ainda mais confuso, quando vou às ferramentas do Google para webmasters, na guia "URLs bloqueados", quando tento muitos dos links do site, todos são exibidos como "Permitidos". Tentei adicionar um sitemap, colocando-o no arquivo robots.txt. Isso não ajudou. O mesmo resultado exato da pesquisa, o mesmo comportamento na guia "URLs bloqueados" nas ferramentas para webmasters. Agora, além disso, a guia "sitemaps" indica para vários links um erro dizendo "O URL foi roubado". Eu tentei esses links exatos nos "URLs bloqueados" e eles são permitidos!

Tentei excluir o arquivo robots.txt. Não adianta. Mesmo problema exato.

Aqui está um exemplo de captura de tela das ferramentas para webmasters. Index Status for my website showing no crawl errors and no blocked URLs, in direct contradiction to what the sitemap tab says and what the search result says! FRUSTRATION!

Neste ponto, não posso dar uma explicação racional para o porquê disso está acontecendo, e também ninguém no departamento de TI. Ninguém nos fóruns do Joomla parece entender o que está acontecendo.

Alguém sabe se existe um possível conflito na configuração do site Joomla com base no que está descrito acima?

5
lite-whowantstoknow

ATUALIZAÇÃO: O problema foi resolvido corrigindo a configuração da extensão

Eu usei um plugin chamado externallogin para permitir que meus usuários efetuem login usando o CAS da Universidade (Central Authentication Server). Acontece que este plug-in está adicionando um redirecionamento 303 à resposta do cabeçalho HTTP em TODAS as minhas páginas, devido a um erro de configuração.

Portanto, como consequência, nenhuma das minhas páginas está sendo indexada corretamente, pois o Google (a) penaliza 303 redirecionamentos ou provavelmente porque (b) a página para a qual o redirecionamento 303 aponta ( https: //login.umd. edu / ) tem um robots.txt que desaprova todos os bots.

[~ # ~] correção [~ # ~]
Para corrigir esse problema, se você o encontrar, deverá corrigir a configuração do plug-in da seguinte maneira:
1. No menu de extensões, em "Login externo>", vá para a configuração do servidor.
2. Na guia conexões, em "Login/logout automático", escolha 'Não'. O erro ocorre se você escolher 'Sim' na etapa 2, pois, nesse caso, a extensão adiciona automaticamente um redirecionamento 303 a todas as páginas do seu site, para verificar se um usuário efetuou login no CAS na sessão do navegador e Nesse caso, ele automaticamente faz o login no site. Esse recurso causará problemas de indexação no mecanismo de pesquisa.

Agradecimentos
Agradeço a @ stephen-ostermiller ( Resposta relevante no Pro Webmasters ) por me direcionar na direção certa, fazendo-me perceber que era um redirecionamento 303 adicionado pela extensão.

2
lite-whowantstoknow