Jak wyodrębnić tekst z dokumentu PDF
Wyodrębnij tekst za pomocą programu Acrobat Reader
Krok 1
Otwórz plik w Acrobat Reader. W systemie Windows wybierz "Plik -> Eksportuj dokument tekstowy", nazwij dokument i zapisz go.
Krok 2
W systemie operacyjnym Mac lub Linux skopiuj tekst, otwierając menu "Widok" i wybierając opcję "Ciągły" lub "Ciągły-Orientacja". (Pierwsza opcja da ci tekst w jednej kolumnie, podczas gdy druga opcja sformatuje tekst jako strony obok siebie). Idź do "Edit -> Select all", a następnie "Edit -> Copy".
Krok 3
Użyj narzędzia Zaznacz, jeśli chcesz wyodrębnić część tekstu. Kliknij narzędzie "Wybierz tekst", a następnie wybierz odpowiednie informacje. W dokumencie o wielu kolumnach będziesz musiał użyć pierwszego narzędzia "Wybór kolumny". Idź do "Edycja -> Kopiuj"
Konwertuj PDF na HTML
Krok 1
Użyj Gmaila jako skrótu. Załącz plik PDF do wiadomości e-mail i wyślij go na swoje konto Gmail. Po otwarciu wiadomości e-mail zobaczysz szereg opcji obok załącznika. Wybierz opcję "Wyświetl jako HTML" i zapisz plik, który otworzy się w osobnym oknie. Chociaż nie będzie można zobaczyć grafiki, plik HTML zachowuje format dokumentu tekstowego.
Krok 2
Wyodrębnij i skonwertuj pliki w wierszu poleceń. Użytkownicy systemu Linux mogą użyć podstawowego polecenia konwersji, które zmieni plik .pdf na plik .txt: "Pdftotext filename.pdf". Pamiętaj, aby zmienić nazwę pliku z nazwą pliku PDF.
Krok 3
Pobierz program konwersji tekstu PDF. Dostępnych jest wiele programów typu open source i bezpłatne programy, takie jak PDFBox i Easy PDF to Text Converter. Wiele z tych programów może również konwertować pliki PDF na HTML.