✅ Porządek w Pythonie

Spisie treści

ten Skrobanie ekranu lub screen scraping, pozwala nam wyodrębnić informacje ze strony internetowej poprzez pobranie tej strony, a następnie przetworzenie jej za pomocą programu; Jest to bardzo przydatne, zwłaszcza gdy potrzebujemy aktualnych informacji ze strony internetowej, która ich nie posiada API dostępne lub niektóre Serwis internetowy.
Aby przeprowadzić Skrobanie ekranu, musimy po prostu pobrać zawartość i móc nią manipulować, aby móc wyodrębnić to, co nas interesuje, do tego możemy użyć różnych technik, takich jak użycie wyrażeń regularnych lub być może pomóc sobie z innymi bibliotekami, takimi jak Czysty.
Czym jest porządek?
Aby móc czytać HTML Musimy zaufać jego strukturze, bo skoro nie wiemy dokładnie, jaką ma treść, to przynajmniej wiemy, że jeśli szukamy struktur HTML coś, co możemy uzyskać, jednak nie zawsze HTML jest dobrze uformowany, albo z powodu błędu pominięcia, albo dlatego, że programista wie, że niektóre przeglądarki mają tendencję do interpretowania HTML, nawet jeśli są jakieś wady.
W tym momencie wchodzi w grę Czysty, który jest niczym innym jak narzędziem pozwalającym na naprawę zniekształconego kodu HTML, jest wysoce konfigurowalny i pozwala nam dostosować sposób, w jaki powinien interpretować poprawki, które może wprowadzić, dzięki czemu będziemy wiedzieć z całą pewnością, jaki rodzaj dokumentu zaowocuje w końcu.
Zobaczmy najpierw obraz kodu HTML Z wieloma błędami kod ten może być interpretowany przez niektóre przeglądarki, jednak nie jest to poprawny kod w jego tworzeniu:

Jak widzimy praktycznie w każdej linijce jest błąd, najczęściej jest to niezamykanie tagów, wtedy widzimy tagi, które zamykają się w niewłaściwym miejscu itp.
Następnie używamy Czysty i zobaczmy kod już poprawiony, tam zdamy sobie sprawę, jak ważna jest ta biblioteka i wszelką pomoc, jaką może nam dać:

Na obrazku widzimy, jak zostało to poprawione przez Czysty, musimy zauważyć, że chociaż Tidy jest dużą biblioteką, prawdopodobnie nie jest w stanie rozwiązać wszystkich błędów HTMLJednak bardzo nam to pomaga, jeśli chodzi o budowanie naszego dobrze sformatowanego kodu HTML.
Uporządkuj
Istnieje kilka sposobów na udostępnienie Tidy przez jego oficjalną stronę http://tidy.sf.net. możemy uzyskać bibliotekę, jednak nie ma możliwości w tym źródle, aby ją zintegrować Pyton więc musimy uciec się do alternatywnego źródła, do tego mamy dwie opcje: schludny dostępne na http://utidylib.berlios.de i mxPorządek dostępny pod adresem http://egenix.com/files/python/mxTidy.html, uTidy wydaje się być najbardziej aktualnym z nich, ale mxTidy jest nieco łatwiejszy do zainstalowania, każdy może zobaczyć, który używać.
Zobaczmy przykład, jak używać Czysty Gdy już go zainstalujemy, w poniższym kodzie otworzymy HTML z błędami i odczytamy go za pomocą Tidy, a następnie pokażemy informacje na ekranie.

 z importu podprocesu Popen, PIPE text = open ('messy.html').read() tidy = Popen ('tidy', stdin = PIPE, stdout = PIPE, stderr = PIPE) tidy.stdin.write (text) tidy. stdin.close () print tidy.stdout.read ()

Jak widać, jest dość prosty w obsłudze CzystyGdy nabierzemy do niej wystarczającej pewności, znając dobrze zachowanie biblioteki, możemy osiągnąć bardzo ciekawe rzeczy.Podobał Ci się i pomógł ten samouczek?Możesz nagrodzić autora, naciskając ten przycisk, aby dać mu pozytywny punkt