ti-enxame.com

Como converter PDF arquivos em planilhas

Eu tenho tentado o dia inteiro converter vários. arquivos pdf que contêm fluxo de tráfego de São Paulo para planilhas como o MS Office Excel ou o LibreOffice Calc no Ubuntu. Quando abro o arquivo .pdf com o LibreOffice Calc, ele abre o LibreOffice Draw e não consigo obter a planilha.

O método mais promissor que encontrei foi aqui com pdftotext. Funciona bem e posso obter as tabelas no LibreOffice Calc, mas ajustando manualmente as colunas.

Meu problema é que tenho tantos arquivos .pdf que levaria muito tempo.

Alguém conhece um método melhor?

13
Sergio

Outra opção é usar o Okular ( http://okular.kde.org ). Possui ferramenta de seleção de tabelas (Ctrl + 5). Você pode selecionar uma tabela, adicionar linhas para linhas e colunas adicionais e copiar a tabela resultante em uma área de transferência. Isso funciona bem para mim.

21
Dmitry Somov

Tabula pode funcionar muito bem. PDF não é um formato fácil de extrair informações estruturadas, portanto nem sempre é possível).

13
scruss

Talvez o -layout seria útil para você. Com esta opção definida, pdftotext tentará manter o layout da coluna no arquivo de texto resultante.

Agora, você pode importar o arquivo de texto para o LibreOffice Calc com as configurações de importação apropriadas. Ao abrir um arquivo txt no Calc, você será perguntado como analisar o conteúdo do arquivo (veja a captura de tela abaixo). Debaixo Separator Options, selecione as opções [separated by] Space e Merge Delimiters. Dessa forma, o Calc poderá restaurar a estrutura da coluna (assumindo que os dados da célula não contenham espaços).

text import into calc

11
tohuwawohu

A ferramenta chamada Able2Extract é a opção que você pode fazer exatamente por você, com o mínimo de erros.

4
Ruyonga Dan