OpenOffice hat keine einzelne integrierte Funktion, um nur Überschriften (H2 und H3) aus einer 100-seitigen HTML-Datei zu extrahieren. Sie müssen eine Kombination aus Funktionen oder einem externen Werkzeug verwenden. Hier sind einige Ansätze:
1. Verwenden von OpenOffice Writer "Find and ersetzen" (begrenzt und mühsam):
Diese Methode ist für eine kleinere Datei möglich, aber für eine 100-seitige HTML-Datei sehr unpraktisch.
* Import: Öffnen Sie die HTML -Datei in OpenOffice Writer. Es wird wahrscheinlich die Formatierung, einschließlich Überschriften, bewahren.
* Finden und ersetzen (iterativ): Führen Sie einen "Finden und Ersetzen" -Operationen durch.
* Finden Sie: `
.*?
`(Das findet alles zwischen`
`und`
`Tags. Der ".
`Abschnitte)
* ersetzen: Halten Sie dieses Feld leer. Klicken Sie auf "Alle ersetzen". Dadurch wird der Inhalt gelöscht, aber nicht * die Überschrift. Wiederholen für `
`Tags.
* Wiederholen: Sie müssen dann alles manuell alles löschen *, außer den Überschriften. Dies ist sehr zeitaufwändig für eine große Datei.
2. Verwendung von OpenOffice Calc und regulären Ausdrücken (fortgeschrittener, aber möglicherweise besser):
Dieser Ansatz ist automatisierter, erfordert jedoch eine gewisse Vertrautheit mit regelmäßigen Ausdrücken und Tabellenkalkulationsfunktionen.
* import (als Text): Öffnen Sie die HTML -Datei in OpenOffice Calc. Importieren Sie es als einfacher Text, nicht als HTML, um Formatierungsprobleme zu vermeiden. Es wird wahrscheinlich als einzelne, sehr lange Zelle importieren.
* Teilen Sie den Text: Verwenden Sie die Funktion "texsplit" (verfügbar in neueren Versionen von OpenOffice), um den Text in Zeilen aufzuteilen, basierend auf einem Trennzeichen wie Wagenrenditen (`\ n`). Dadurch erhalten Sie eine Zeile pro Zeile des HTML -Code (ungefähr).
* reguläre Ausdrücke (mit `regex`): Verwenden Sie die "Regex` -Funktion von OpenOffice (ähnlich wie" RegexMatch "oder" regexexextract "von Excel, abhängig von Ihrer Version) in einer neuen Spalte. Die Formel sollte den Überschriftentext extrahieren. Ein Beispiel:`=regex (a1,"
(.*?)
|
(.*?)
"; 2)`
* Diese Formel sucht nach `
`oder` `Tags, und erfassen den Inhalt innerhalb. Der "|" fungiert als "oder" Operator. Das `(.*?)` Erfasst den Inhalt nicht vorsichtig. Die `2` extrahiert die zweite Erfassungsgruppe; wenn nur ` `wurde gefunden, dass es sich um eine leere Zeichenfolge handelt.
* Filter und sauber: Filter für nicht leere Zellen, um Einträge ohne gefundene Überschriften zu entfernen. Sie benötigen weiterhin eine manuelle Reinigung, um zusätzliche Whitespace- oder Streuner -Zeichen aus den Ergebnissen zu entfernen.
3. Verwenden externer Werkzeuge (empfohlen):
Dies ist bei weitem die einfachste und effizienteste Methode für eine große Datei. Verwenden Sie ein dediziertes Textverarbeitungstool oder eine Skriptsprache wie Python:
* Python mit `Beautiful Suppe`: Python mit der "schönen Suppe" -Bibliothek eignet sich hervorragend zum Parsen von HTML. Ein kurzes Skript kann nur die Tags "H2" und "H3" und deren Inhalt extrahieren. Viele Online -Tutorials zeigen, wie das geht.
Beispiel Python Skript:
`` `Python
Aus BS4 Import BeautifulSoup
mit open ("your_100page_html_file.html", "r", coding ="utf-8") als f:
html =f.read ()
Suppe =BeautifulSoup (HTML, "html.parser")
Überschriften =[]
Für H2 in Suppe.find_all ("H2"):
cocts.append (h2.text.strip ())
Für H3 in Suppe.find_all ("H3"):
cocts.append (h3text.strip ())
mit Open ("extrahierte_headings.txt", "w", coding ="utf-8") als Outfile:
Für die Überschrift in Überschriften:
outfile.write (Überschrift + "\ n")
print ("Überschriften extrahiert an extrahiert_headings.txt"))
`` `
Denken Sie daran, `" your_100page_html_file.html "` mit Ihrem tatsächlichen Dateinamen zu ersetzen. Sie müssen `Beautiful Suppe" installieren:`pip installieren Sie BeautifulSoup4`
Der Python -Ansatz wird für seine Effizienz und Genauigkeit dringend empfohlen. Die OpenOffice -Methoden sind für eine Datei dieser Größe deutlich umständlicher.