Ich habe eine lange HTML -Datei mit 100pg und möchte nur die Überschriften behalten, dh H2 H3 Wie macht das mit offenem Büro?

Mitglieder-Login

InformationenPortable Document Format

Wie man Seiten aus einer PDF- Datei… Aufgrund ihrer Fähigkeit, zwischen verschiedenen Computern mit unterschiedlichen Betriebssystemen un
So erstellen Sie PDF Fillable Email… Erstellen Sie einen befüllbaren , Portable Document Format ( PDF) E-Mail- Formular mit Adobe LiveCyc
Welche Vor- und Nachteile hat eine … Vorteile von RTF-Dateien im Vergleich zu DOC-Dateien: 1. Plattformübergreifende Kompatibilität: RT
Ein Dokument mit einem voreingestel… Ein Dokument mit einem voreingestellten Design wird eine Vorlage bezeichnet . Hier ist der Grund

Software

HOME

* Computer Wissen >> Software >> Portable Document Format >> .

Ich habe eine lange HTML -Datei mit 100pg und möchte nur die Überschriften behalten, dh H2 H3 Wie macht das mit offenem Büro?

OpenOffice hat keine einzelne integrierte Funktion, um nur Überschriften (H2 und H3) aus einer 100-seitigen HTML-Datei zu extrahieren. Sie müssen eine Kombination aus Funktionen oder einem externen Werkzeug verwenden. Hier sind einige Ansätze:

1. Verwenden von OpenOffice Writer "Find and ersetzen" (begrenzt und mühsam):

Diese Methode ist für eine kleinere Datei möglich, aber für eine 100-seitige HTML-Datei sehr unpraktisch.

* Import: Öffnen Sie die HTML -Datei in OpenOffice Writer. Es wird wahrscheinlich die Formatierung, einschließlich Überschriften, bewahren.

* Finden und ersetzen (iterativ): Führen Sie einen "Finden und Ersetzen" -Operationen durch.

* Finden Sie: `

.*?

`(Das findet alles zwischen`

`und`

`Tags. Der ".

`Abschnitte)
* ersetzen: Halten Sie dieses Feld leer. Klicken Sie auf "Alle ersetzen". Dadurch wird der Inhalt gelöscht, aber nicht * die Überschrift. Wiederholen für `

`Tags.
* Wiederholen: Sie müssen dann alles manuell alles löschen , außer den Überschriften. Dies ist sehr zeitaufwändig für eine große Datei.

2. Verwendung von OpenOffice Calc und regulären Ausdrücken (fortgeschrittener, aber möglicherweise besser):

Dieser Ansatz ist automatisierter, erfordert jedoch eine gewisse Vertrautheit mit regelmäßigen Ausdrücken und Tabellenkalkulationsfunktionen.

import (als Text): Öffnen Sie die HTML -Datei in OpenOffice Calc. Importieren Sie es als einfacher Text, nicht als HTML, um Formatierungsprobleme zu vermeiden. Es wird wahrscheinlich als einzelne, sehr lange Zelle importieren.
* Teilen Sie den Text: Verwenden Sie die Funktion "texsplit" (verfügbar in neueren Versionen von OpenOffice), um den Text in Zeilen aufzuteilen, basierend auf einem Trennzeichen wie Wagenrenditen (`\ n`). Dadurch erhalten Sie eine Zeile pro Zeile des HTML -Code (ungefähr).
* reguläre Ausdrücke (mit `regex`): Verwenden Sie die "Regex` -Funktion von OpenOffice (ähnlich wie" RegexMatch "oder" regexexextract "von Excel, abhängig von Ihrer Version) in einer neuen Spalte. Die Formel sollte den Überschriftentext extrahieren. Ein Beispiel:`=regex (a1,"

(.*?)

"; 2)`

* Diese Formel sucht nach `

`oder`

`Tags, und erfassen den Inhalt innerhalb. Der "|" fungiert als "oder" Operator. Das `(.*?)` Erfasst den Inhalt nicht vorsichtig. Die `2` extrahiert die zweite Erfassungsgruppe; wenn nur `

`wurde gefunden, dass es sich um eine leere Zeichenfolge handelt.
* Filter und sauber: Filter für nicht leere Zellen, um Einträge ohne gefundene Überschriften zu entfernen. Sie benötigen weiterhin eine manuelle Reinigung, um zusätzliche Whitespace- oder Streuner -Zeichen aus den Ergebnissen zu entfernen.

3. Verwenden externer Werkzeuge (empfohlen):

Dies ist bei weitem die einfachste und effizienteste Methode für eine große Datei. Verwenden Sie ein dediziertes Textverarbeitungstool oder eine Skriptsprache wie Python:

* Python mit `Beautiful Suppe`: Python mit der "schönen Suppe" -Bibliothek eignet sich hervorragend zum Parsen von HTML. Ein kurzes Skript kann nur die Tags "H2" und "H3" und deren Inhalt extrahieren. Viele Online -Tutorials zeigen, wie das geht.

Beispiel Python Skript:

`` `Python
Aus BS4 Import BeautifulSoup

mit open ("your_100page_html_file.html", "r", coding ="utf-8") als f:
html =f.read ()

Suppe =BeautifulSoup (HTML, "html.parser")

Überschriften =[]
Für H2 in Suppe.find_all ("H2"):
cocts.append (h2.text.strip ())
Für H3 in Suppe.find_all ("H3"):
cocts.append (h3text.strip ())

mit Open ("extrahierte_headings.txt", "w", coding ="utf-8") als Outfile:
Für die Überschrift in Überschriften:
outfile.write (Überschrift + "\ n")

print ("Überschriften extrahiert an extrahiert_headings.txt"))
`` `

Denken Sie daran, `" your_100page_html_file.html "` mit Ihrem tatsächlichen Dateinamen zu ersetzen. Sie müssen `Beautiful Suppe" installieren:`pip installieren Sie BeautifulSoup4`

Der Python -Ansatz wird für seine Effizienz und Genauigkeit dringend empfohlen. Die OpenOffice -Methoden sind für eine Datei dieser Größe deutlich umständlicher.

Mitglieder-Login

InformationenPortable Document Format

Software

Ich habe eine lange HTML -Datei mit 100pg und möchte nur die Überschriften behalten, dh H2 H3 Wie macht das mit offenem Büro?

.*?

`und`

`Abschnitte) * ersetzen: Halten Sie dieses Feld leer. Klicken Sie auf "Alle ersetzen". Dadurch wird der Inhalt gelöscht, aber nicht * die Überschrift. Wiederholen für `

(.*?)

(.*?)

`oder`

`Tags, und erfassen den Inhalt innerhalb. Der "|" fungiert als "oder" Operator. Das `(.*?)` Erfasst den Inhalt nicht vorsichtig. Die `2` extrahiert die zweite Erfassungsgruppe; wenn nur `

`Abschnitte)
* ersetzen: Halten Sie dieses Feld leer. Klicken Sie auf "Alle ersetzen". Dadurch wird der Inhalt gelöscht, aber nicht * die Überschrift. Wiederholen für `