ti-enxame.com

Como posso detectar links que apontam para invasores de domínio?

Eu sei como encontrar links mortos que vão para 404 páginas. No entanto, hoje em dia, muitos links realmente ficam inoperantes, mas acabam indo para um invasor de domínio. Sei que é uma tarefa difícil, mas existe alguma maneira de descobrir se um site é realmente um invasor de domínio sem realmente ir a cada site com meu navegador e examiná-lo para ver se há uma foto de uma garota com uma mochila etc. .?

4
delete

Métodos de detecção possíveis para páginas/domínios estacionados:

Encontre frases indesejadas

Faça uma pesquisa sem distinção entre maiúsculas e minúsculas de frases comuns de lixo eletrônico genéricas, como "o que você precisa, quando precisa" e "sua fonte para praticamente qualquer coisa!".

Encontre convites para comprar

Procure textos como "informações sobre este domínio" e "este domínio pode estar à venda".

Teste 404s em subpáginas aleatórias

Visite testdomain.com/randomstring. Se você receber um 404, ou a página em si contiver o texto '404' ou 'não encontrado', provavelmente não está estacionado.

Teste para redirecionamentos em subpáginas aleatórias

Outros sistemas de domínio estacionado redirecionam testdomain.com/randomstring para testdomain.com.

Pesquise o nome do domínio nas metatags

Vários modelos de domínio estacionado usam o seguinte formato para a metatag do autor:

<meta name="author" content="Nameofdomain.com" />

Outros colocam na descrição:

<meta name="description" content="nameofdomain.com">

Em cada caso, o domínio é a coisa somente no atributo 'content'. É improvável que seja o caso de sites ativos.

Procure a tag frameset

Alguns modelos de domínio estacionado usam a tag <frameset> com vários quadros internos para obter conteúdo externo (geralmente de 'information.com'), mas, caso contrário, não apresentam mais nada na página.

Use vários testes

Nenhum desses testes é necessariamente um indicador confiável de um domínio estacionado por conta própria. Você provavelmente terá que combinar vários testes para criar seu próprio algoritmo, testá-lo e aperfeiçoá-lo com base em um conjunto de domínios estacionados conhecidos e ativos ativos conhecidos.

2
Nick

Há coisas que você pode procurar. O elemento dominante na página é um iFrame? A resposta é um 301/302 que o tira do domínio? (muitos posseiros simplesmente 302 ou 301 você acessam a página de destino). A relação link/texto é incrivelmente alta?

Eu diria que é muito difícil, mas essas são pelo menos algumas características comuns.

Também parece haver um projeto na página da Wikipedia linkrot referente a algum projeto que tenta fazer isso: http://en.wikipedia.org/wiki/Wikipedia_talk:Linkrot - detalhes são incompletos.

0
Mark Henderson