ti-enxame.com

Os mecanismos de pesquisa rastreiam PDFs e, se houver, existem regras a serem seguidas ao criá-los

O site em que estou trabalhando possui algumas centenas de PDFs. Acho que nunca vi nenhum deles voltar em uma pesquisa, mas existem links diretamente do site externo. Eles também estão cheios de palavras-chave porque são documentos do produto.

Há algo de especial que precisamos fazer para que o Google ou outros mecanismos de pesquisa os rastreiem?

Existem regras rígidas e rápidas para criar PDFs para ajudar o Google a gostar mais deles? Por exemplo, devo executá-los no ghostscript para limpar as tags PDF quebradas que a Adobe cria durante a geração?

22
Ben Hoffman

Google definitivamente indexa arquivos PDF e você pode pesquisar apenas arquivos PDF adicionando filetype:pdf à sua consulta de pesquisa ( exemplo ).

Eu diria que as principais coisas a fazer para otimizar um PDF, para que seja facilmente indexado, seriam:

  • Atribua um nome de arquivo significativo
  • Preencha todas as propriedades dos metadados do documento (título, autor, palavras-chave etc.)
  • Verifique se o seu PDF é composto por texto real e não imagens digitalizadas
  • Garanta que você tenha um bom conteúdo com o uso correto dos cabeçalhos, como faria com um documento HTML

Para obter mais dicas, leia Otimizando PDF Documents e Onze dicas para otimizar PDFs para mecanismos de pesquisa

17
Dan Diplo

Não tenho certeza sobre outros mecanismos de pesquisa, mas, no que diz respeito ao Google, a regra principal seria não excluí-los via robots.txt

Este foi o anúncio inicial de suporte à pesquisa PDF.

1
intlect

Assim como tornar um site compatível não pode prejudicar seu SEO, tornar seu PDF acessível não pode prejudicar. O verificador de acessibilidade incorporado da Adobe está longe de ser perfeito, mas pelo menos a correção dessas áreas o ajudará a começar.

Eu provavelmente gasto 5 minutos em cada 4 ou 5, principalmente PDFs de texto que colocamos online. O tempo aumenta igualmente, dependendo do número de páginas e da complexidade dessas páginas.

Supondo que você tenha o Adobe Acrobat Pro para fazer sua edição:

  • Execute uma verificação completa de acessibilidade. (A verificação rápida é inútil para mim)
  • Atualize as meta informações nas propriedades do documento (palavras-chave, assunto, idioma etc.)
  • Verifique se as tags foram adicionadas
  • Verifique se o texto está marcado como texto, imagens como imagens, itens de plano de fundo como plano de fundo
  • Etiquetar cotão inútil (como decoração ou design) como plano de fundo
  • Adicione um bom texto alternativo às imagens
  • Verifique se, na ordem de leitura, o texto está ordenado corretamente
  • Na barra de ferramentas de conteúdo, verifique se o texto não está duplicado ou está traduzido incorretamente
  • Use o scanner OCR nas páginas digitalizadas

Para uma edição mais avançada, como tabelas, e erros realmente incomuns da Adobe, usamos um plug-in chamado CommonLook. O CommonLook faz o trabalho, mas eu odeio quase tanto quanto odeio as ferramentas da Adobe.

Familiarize-se com a ferramenta Retocar ordem de leitura, a barra de ferramentas Tags, a barra de ferramentas Ordem de leitura e a barra de ferramentas Conteúdo. Meu trabalho exige documentos totalmente compatíveis antes de sair para a Web, mas qualquer um pode se beneficiar de algumas propriedades simples de marcação e documento.

1
MrChrister