Spisie treści
Podczas wykonywania prac z parser w Pyton zaleca się, jeśli pracujemy z dokumentami HTML użyj standardu XHTML, ponieważ ta ostatnia jest bardziej rygorystyczna, jeśli chodzi o obsługę otwierających i zamykających znaczników elementów, dzięki temu możemy łatwiej tworzyć programy, które mogą to zinterpretować.w Pyton mamy do dyspozycji HTMLParser, nie należy tego mylić z klasą o tej samej nazwie modułu biblioteka html, ponieważ pierwsza jest częścią standardowej biblioteki, gdy otrzymujemy dokument z Czysty możemy użyć HMTLParser aby móc przeglądać jego zawartość.
Korzystanie z HTMLParsera
Użyj HTMLParser, tak naprawdę oznacza to podklasowanie go, abyśmy mogli nadpisywać metody w dogodnym dla nas sposób i dzięki temu móc spełnić nasze wymagania, zobaczmy poniżej listę głównych metod, które uzyskujemy podczas używania HTMLParser.
- handle_starttag (znacznik, atrybuty): Po znalezieniu tagu początkowego attrs jest sekwencją par (nazwa, wartość).
- handle_startendtag (znacznik, atrybuty): Używany do pustych etykiet. Domyślnie obsługuje osobno uruchamianie i zamykanie.
- handle_endtag (znacznik): Używane, gdy zostanie znaleziony tag zamykający.
- handle_data (dane): Jest używany, gdy znajdziemy dane tekstowe.
- handle_charref (ref): Jest używany podczas pracy z odwołaniami znakowymi formularza & # ref;.
- handle_entityref (nazwa): Używamy go, gdy mamy odniesienia do bytów postaci & name;.
- handle_comment (dane): Jest wywoływana tylko wtedy, gdy jest skomentowana treść.
- handle_decl (decl): Służy do deklaracji formularza.
- handle_pi (dane): Służy do przetwarzania instrukcji.
POWIĘKSZAĆ
Mamy coś szczególnego z tą metodą handle_dataPonieważ jesteśmy w prawdziwym środowisku, musimy przygotować się na najbardziej złożone scenariusze i rozumiemy przez to, że ponieważ jest prawie pewne, że nie uzyskamy potrzebnych informacji przy pierwszym połączeniu, przygotowujemy tę metodę, aby móc ją uzyskać w częściach, gdy już dostaniemy wszystko, co robimy, to łączymy dane.
Akcja naszego programu rozpoczyna się w momencie wywołania metody karmić () do którego przekazujemy tekst będący treścią strony internetowej, którą uzyskujemy metodą urlopen () a kiedy to wszystko zostanie przetworzone, przystępujemy do wywołania metody close().
W końcu dzięki temu osiągnęliśmy program Skrobanie ekranu bardziej czytelny niż przy użyciu wyrażeń regularnych i nieco bardziej niezawodny w aspekcie, że nie ograniczamy się do stałych struktur, dzięki czemu możemy poprawnie uzyskać nasze informacje.
Na tym kończymy nasz samouczek HTMLParser, ponieważ widzimy, że istnieje wiele sposobów na dotarcie do tych rozwiązań w celu uzyskania informacji ze strony internetowej.Podobał Ci się i pomógł ten samouczek?Możesz nagrodzić autora, naciskając ten przycisk, aby dać mu pozytywny punkt