ti-enxame.com

Como converter PDF em HTML?

Existe uma biblioteca adequada que eu possa usar para converter PDF em HTML ou algum outro formato que possa ser convertido em HTML facilmente?

Eu procurei perguntas semelhantes, mas sem sorte.

Quero poder extrair texto de PDFs, possivelmente imagens. Não pretendo incorporar o PDF dentro do HTML.

21
Luchian Grigore

Como mencionei no comentário acima, é definitivamente possível converter pdf em html usando a ferramenta Able2Extract7, que pode ser baixada em aqui

Uso essa ferramenta há quase 2 anos e estou muito feliz com ela. Essa ferramenta permite converter PDF para Word, Excel, PowerPoint, Publisher, [~ # ~] html [~ # ~] , OO etc. Veja a captura de tela

enter image description here

Imp Nota : Esta ferramenta não é um freeware.

HTH

8
Siddharth Rout

Se você estiver no Linux, tente pdftohtml:

Sudo apt-get install poppler-utils
pdftohtml -enc UTF-8 -noframes infile.pdf outfile.html

O conversor de código-fonte aberto Calibre também pode converter arquivos PDF em HTML) e está disponível no MacOS, Windows e Linux.

6
moof2k

É tecnicamente impossível simplesmente "converter" um arquivo PDF em HTML. O formato PDF é mais como uma "tela", onde você "coloca" seu blocos de texto e imagens, enquanto o HTML precisa de CSS ou de muitas tabelas para "colocar" os blocos.Além disso, os arquivos PDF incorporam as imagens, enquanto o HTML simplesmente chama outros arquivos.
Existem muitos outros exemplos de diferenças, mas, basicamente, é como pedir para converter uma imagem ou um vídeo com texto.

No entanto, você pode ler de um arquivo PDF e, em seguida, extrair o texto e as imagens, usando bibliotecas ou outras técnicas avançadas. O .Net possui algumas bibliotecas, por exemplo: http : //forums.asp.net/post/2167442.aspx

Se você precisar converter apenas um arquivo uma vez, poderá abrir o arquivo pdf no Illustrator, por exemplo, e depois exportá-lo em html. Ou você pode selecionar todo o documento (ctrl + a), copiá-lo e colá-lo no Word e salvar o resultado em html. Vai estar longe de ser perfeito, mas será um começo.

2
thomasb

Baixar

  • pdfbox-2.0.3.jar
  • fontbox-2.0.3.jar
  • preflight-2.0.3.jar
  • xmpbox-2.0.3.jar
  • pdfbox-tools-2.0.3.jar
  • pdfbox-debugger-2.0.3.jar

from http://pdfbox.Apache.org/

 import Java.io.InputStream;
 import Java.io.IOException;
 import org.Apache.pdfbox.pdmodel.PDDocument;
 import org.Apache.pdfbox.tools.PDFText2HTML;

    // .....
    try {
        InputStream is = // ..... Read PDF file
        PDDocument pdd = PDDocument.load(is); //This is the in-memory representation of the PDF document.
        PDFText2HTML converter = new PDFText2HTML(); // the converter
        String html = converter.getText(pdd); // That's it!
        pdd.close();
        is.close();
    } catch (IOException ioe) {
        // ......
    }

Observação: as imagens não são enviadas para a saída HTML.

2
Sergio Muriel

Não é tão difícil converter PDF em HTML. Existem muitas opções on-line, que podem, no entanto, expor seus dados a terceiros. Siga estas etapas e a saída é ótima.

  1. Abra a página PDF2HTMLEX . (Você pode seguir para as próximas etapas que mencionei ou seguir as instruções da página.)

  2. O pacote está disponível para download no Windows a partir daqui .

    Das muitas opções disponíveis, recomendo fazer o download "pdf2htmlEX-win32-0.14.6-upx-with-poppler-data.Zip (o pdf2htmlEx.exe vem com UPX)"

  3. Depois de baixar e descompactar a conversão, fica apenas um comando de cmd.

    C:\Users\kjk\Downloads\pdf2htmlEX-win32-0.14.6-upx-with-poppler-data>pdf2htmlEX.exe c:\1\abc.pdf
    

    Comando final:

    pdf2htmlEX.exe c:\1\abc.pdf
    

    (É claro que você pode reduzir o nome da pasta, no entanto, eu a mantive da mesma forma que você veria depois de descompactar o download. Suponho que você possa alterar o diretório em cmd para a pasta desejada ou, então, o Google como.)

o abc.pdf será convertido para HTML e será salvo como abc.html na mesma pasta que a do seu exe.

1
Kjk

Não tenho certeza se isso pode ser útil, mas se você precisar de uma conversão única, poderá experimentar esta ferramenta on-line gratuita: https://www.readkong.com/

Utilizou este site várias vezes. Produz html que é idêntico à fonte original em pdf. Nenhuma marcação feia e quebrada, mashup html e assim por diante, mesmo para pdf muito complexo.

0
Dmitry Belyaev