Es kann sehr frustrierend sein , zu versuchen, Text aus einer PDF -Datei zur Verwendung in einer anderen Anwendung zu extrahieren. Es ist nicht ungewöhnlich für die Grafik in den Weg oder für das Layout des Dokuments zu erschweren , damit der Test in sinnvolle Sätze übertragen bekommen . Obwohl es nicht unmöglich, Text mit einem Copy-and -Paste- Ansatz zu extrahieren , kann es sehr zeitaufwendig sein und nicht für PDF-Datei Text als ein anderes Format exportiert werden können. Es gibt jedoch ein paar Möglichkeiten, um Text aus einer PDF -Datei zu extrahieren . Things You
PDF Datei
Adobe Acrobat Reader
Google Mail-Konto (optional)
PDF zu Text -Konvertierungs-Software (optional)
brauchen anzeigen Weitere Anweisungen
Extract Text mit Acrobat Reader
1
Öffnen Sie die Datei in Acrobat Reader. Wählen Sie in Windows "File -> Export Document to Text , " nennen Sie das Dokument und speichern Sie es
2
Kopieren Sie den Text auf einem Mac -oder Linux- OS durch den Zugriff auf das Menü Ansicht und wählen Sie " . Continuous " oder " Continuous - Ausrichtung . " ( Erstere wird Sie mit dem Text in einer Spalte zu schaffen, während die letzteren wird der Text als Side-by -Side- Seiten zu formatieren. ) Gehen Sie auf " Bearbeiten - > Alles auswählen " und dann auf " Bearbeiten - > Kopieren. "
3
Verwenden Sie das Auswahl-Werkzeug , wenn Sie nur einen Teil des Textes zu extrahieren. Klicken Sie auf die "Text Select" -Tool und wählen Sie dann die gewünschten Informationen. In einem Dokument in mehrere Spalten formatiert ist, müssen Sie den " Column Select" -Tool zuerst . Gehen Sie auf " Bearbeiten - . > Kopieren "
Convert PDF to HTML
4
Nutzungsbedingungen Gmail als Abkürzung . Befestigen Sie die PDF -Datei in eine E-Mail und senden Sie es an Ihr Google Mail-Konto . Wenn Sie die E-Mail öffnen Sie eine Reihe von Optionen, neben der Anlage zu sehen. Wählen Sie " als HTML anzeigen " und speichern Sie die Datei, die in einem separaten Fenster geöffnet. Auch wenn Sie nicht in der Lage, beliebige Grafiken anzuzeigen, wird die HTML-Datei des Dokuments behalten Textformatierung .
5
Extrahieren und Konvertieren von Dateien auf der Kommandozeile . Linux-Anwender können eine grundlegende Umwandlung Befehl , die eine PDF-Datei in eine txt -Datei ändern: . . . " Pdftotext Dateiname.pdf " Achten Sie darauf, den Dateinamen mit dem Namen der PDF-Datei zu ersetzen.
6
Laden Sie ein PDF zu Text-Konvertierung Programm . Es gibt eine Reihe von Open-Source -und Freeware- Programme zur Verfügung wie PDFBox and Easy PDF to Text Converter (siehe Ressourcen unten). Viele dieser Programme können auch PDF-Dateien in HTML sowie .