Python ist eine Open-Source , objektorientierte Programmiersprache für die Entwicklung dynamischer Web -Anwendungen optimiert . Bei der Programmierung in Python, müssen Sie HTML-Formatierung von Python-Code zu trennen. Zum Beispiel kann ein Benutzer eine Webseite in einem Datenfeld eingeben , die Sie auffordert, Streifen aus der HTML-Tags , um die Textdaten speichern. Um HTML-Tags aus einem String entfernen, verwenden Sie die eingebaute Python Regular Expression Modul " Regex . " Anleitung
1
Öffnen Sie Ihre Python -Editor.
2
Legen Sie das Modul für reguläre Ausdrücke , indem Sie den folgenden :
import re
3
Definieren Sie eine Funktion, um alle HTML-Tags zu entfernen. Geben Sie beispielsweise die folgende :
def delete_html (Daten) :
4
Trennen Sie die HTML- Code-Elemente mithilfe der " re.compile "-Funktion , um die Muster für reguläre Ausdrücke kompilieren in ein Objekt, das Sie für Mustervergleich verwenden können. Fortsetzung des Beispiels , geben Sie dies :
htmlPattern = re.compile (r ' < . ? * >' )
In diesem Beispiel erzählt der " re.compile "-Attribut Python für die Zeichenfolge " ' <..> " was bedeutet den Anfang und das Ende HTML-Tags.
der Qualifier " . * ? " erzählt Python , um nur die Tags übereinstimmen. Ohne die Qualifikation , gibt Python den String "
subhead
"; mit dem Qualifier , Python returns " .
Und
"
5
Ersetzen Sie einen Platz für alle HTML-Code mit Hilfe der "sub" -Funktion. Fortsetzung des Beispiels , geben Sie den folgenden :
Rückkehr htmlPattern.sub ('' , data)
In diesem Fall ersetzt Python Streifen aus dem HTML-Code und es mit einem leeren Raum . An diesem Punkt , je nachdem, wie Sie wollen , um die Daten zu strukturieren , können Sie die Zeichenfolge " Streifen "-Funktion , um Leerzeichen zu entfernen oder reguläre Ausdrücke verwenden , wie z. B. "\\ s + ", um die zusätzlichen Leerzeichen entfernen.