Python - HTMLParser

Spisie treści
Podczas wykonywania prac z parser w Pyton zaleca się, jeśli pracujemy z dokumentami HTML użyj standardu XHTML, ponieważ ta ostatnia jest bardziej rygorystyczna, jeśli chodzi o obsługę otwierających i zamykających znaczników elementów, dzięki temu możemy łatwiej tworzyć programy, które mogą to zinterpretować.
w Pyton mamy do dyspozycji HTMLParser, nie należy tego mylić z klasą o tej samej nazwie modułu biblioteka html, ponieważ pierwsza jest częścią standardowej biblioteki, gdy otrzymujemy dokument z Czysty możemy użyć HMTLParser aby móc przeglądać jego zawartość.
Korzystanie z HTMLParsera
Użyj HTMLParser, tak naprawdę oznacza to podklasowanie go, abyśmy mogli nadpisywać metody w dogodnym dla nas sposób i dzięki temu móc spełnić nasze wymagania, zobaczmy poniżej listę głównych metod, które uzyskujemy podczas używania HTMLParser.
  • handle_starttag (znacznik, atrybuty): Po znalezieniu tagu początkowego attrs jest sekwencją par (nazwa, wartość).
  • handle_startendtag (znacznik, atrybuty): Używany do pustych etykiet. Domyślnie obsługuje osobno uruchamianie i zamykanie.
  • handle_endtag (znacznik): Używane, gdy zostanie znaleziony tag zamykający.
  • handle_data (dane): Jest używany, gdy znajdziemy dane tekstowe.
  • handle_charref (ref): Jest używany podczas pracy z odwołaniami znakowymi formularza & # ref;.
  • handle_entityref (nazwa): Używamy go, gdy mamy odniesienia do bytów postaci & name;.
  • handle_comment (dane): Jest wywoływana tylko wtedy, gdy jest skomentowana treść.
  • handle_decl (decl): Służy do deklaracji formularza.
  • handle_pi (dane): Służy do przetwarzania instrukcji.
Kiedy już zobaczyliśmy główne metody HTMLParserNastępnie zobaczymy obrazek z przykładowym kodem, a następnie wyjaśnimy, z czego się składa:

POWIĘKSZAĆ

Pierwszą rzeczą, którą zauważamy, jest to, że za to Skrobanie ekranu nie będziemy używać CzystyDzieje się tak, ponieważ HTML, który zamierzamy sprawdzić, nie jest źle sformatowany, wtedy widzimy, że pierwszą rzeczą, którą deklarujemy, są pewne zmienne logiczne, za pomocą których będziemy kontrolować, czy jesteśmy wewnątrz elementu H4 lub w elemencie linku lub linku.
Mamy coś szczególnego z tą metodą handle_dataPonieważ jesteśmy w prawdziwym środowisku, musimy przygotować się na najbardziej złożone scenariusze i rozumiemy przez to, że ponieważ jest prawie pewne, że nie uzyskamy potrzebnych informacji przy pierwszym połączeniu, przygotowujemy tę metodę, aby móc ją uzyskać w częściach, gdy już dostaniemy wszystko, co robimy, to łączymy dane.
Akcja naszego programu rozpoczyna się w momencie wywołania metody karmić () do którego przekazujemy tekst będący treścią strony internetowej, którą uzyskujemy metodą urlopen () a kiedy to wszystko zostanie przetworzone, przystępujemy do wywołania metody close().
W końcu dzięki temu osiągnęliśmy program Skrobanie ekranu bardziej czytelny niż przy użyciu wyrażeń regularnych i nieco bardziej niezawodny w aspekcie, że nie ograniczamy się do stałych struktur, dzięki czemu możemy poprawnie uzyskać nasze informacje.
Na tym kończymy nasz samouczek HTMLParser, ponieważ widzimy, że istnieje wiele sposobów na dotarcie do tych rozwiązań w celu uzyskania informacji ze strony internetowej.Podobał Ci się i pomógł ten samouczek?Możesz nagrodzić autora, naciskając ten przycisk, aby dać mu pozytywny punkt

Będziesz pomóc w rozwoju serwisu, dzieląc stronę ze swoimi znajomymi

wave wave wave wave wave