Jak sklonować dowolną witrynę za pomocą HTTrack

Spisie treści

HTTrack to darmowe, darmowe i wieloplatformowe oprogramowanie, którego celem jest przechwytywanie stron internetowych, czyli pobieranie całości lub części strony internetowej, aby później móc nawigować po niej w trybie offline. Istnieje wersja dla Linuksa o nazwie WebHTTrack, a jego wersja dla Windows nosi nazwę WinHTTrack. Oprogramowanie HTTrack możemy pobrać z jego oficjalnej strony internetowej:

W przypadku Linuksa możemy go również zainstalować z repozytoriów, korzystając z poniższego polecenia.

 sudo apt-get zainstaluj httrack

To oprogramowanie jest często używany do kopiowania stron internetowych a następnie przesłać je na inny serwer i wykorzystać do przekierowania ruchu na stronę kopiowania, kierując odwiedzających na fałszywą stronę. Używają go również ci, którzy chcą zobaczyć kod lub działanie konkretnej strony internetowej. Spójrzmy na przykład ze stroną httrack.com, na której hostowana jest aplikacja.

 httrack "httrack.com"
To polecenie pobierze pliki z sieci do folderu www.httrack.com, który możemy zobaczyć lokalnie.

HTTrack pobiera dowolną stronę internetową i tworzy kopię w folderze lub na dysku, na którym się znajdujemy. Może to być przydatne podczas wyszukiwania danych na stronie w trybie offline, takich jak adresy e-mail, przydatne informacje dla SEO lub struktury witryny. HTTrack jest dostępny zarówno pod Windows, jak i w wersji dla Linuksa, a zastosowanie jest takie samo, tylko że pod Windows ma wizualny intergaz.

Możemy użyj Httrack do testów penetracyjnych i testów bezpieczeństwa, ponieważ przy tworzeniu repliki strony internetowej pozwala przeanalizować całą zawartość oraz jakie pliki są pobierane, aby stwierdzić, że żaden krytyczny plik nie jest widziany przez atakującego. Kiedy zbieramy dane i informacje, możemy wykonywać testy, wyszukiwać i analizować kod lub słowa kluczowe, możemy również zbierać dane, które można później wykorzystać.

Również w ten sposób jahakerzy wykorzystują wykonane kopie, aby przesłać je na serwer z domeną podobną do sieci skopiowaną w celu emulacji stron internetowych, a następnie wykorzystaj je za pośrednictwem phishingu do kradzieży danych od niczego niepodejrzewających użytkowników lub do przeprowadzania ataków socjotechnicznych. Httrack ma wiele opcji i parametrów, których można użyć, aby poprawić pobieranie, w tym celu używane jest polecenie:

 httrack --pomoc

Niektóre ważne parametry, których możemy użyć z narzędziem Httrack to:

  • -m: wskazuje maksymalny rozmiar pliku w bajtach do pobrania, na przykład -m 20000000 odpowiednik 20 mb.
  • -mim: służy do pobierania tylko określonego typu pliku, który wskażemy jego rozszerzeniem, na przykład poleceniem
 httrack www.WEB.com -mime: application / * + mime: application / pdf
Korzystanie z httrack jest proste, musimy dodać domenę strony, którą chcemy skopiować, a następnie rozpocząć skanowanie umieszczone w katalogu na naszym dysku twardym, w którym zamierzamy przechowywać stronę internetową. Musimy wziąć pod uwagę, ile linków lub treści może zawierać strona internetowa ze względu na ilość informacji do pobrania. Eksploracja kopii sieci może być wykorzystana do znalezienia luk i luk, które mogą narazić przeglądanie na ryzyko, a także do określenia, które części wygodnie jest zaszyfrować lub zwiększyć bezpieczeństwo.

Jeśli celem pobierania jest znalezienie informacji o firmie lub listach użytkowników, telefonów lub innych danych, w szczególności do celów socjotechnicznych lub próba sfałszowania strony internetowej lub loginu w celu uzyskania danych użytkownika, HTTrack jest doskonałym narzędziem do obu zadań.

Interfejs graficzny z WebHTTrack
WebHTTrack to graficzny interfejs dla httrack, który jest używany z przeglądarki internetowej i umożliwia dostęp do kopii całych witryn w trybie offline oraz automatyczne modyfikowanie łączy. Narzędzia takie jak WebHTTrack mogą pomóc i umożliwiają aktualizację kopii bez konieczności zapamiętywania parametrów pobierania lub kopiowania witryny i jej zawartości. Możemy go zainstalować za pomocą polecenia:

 sudo apt-get zainstaluj webhttrack
Następnie do Uruchom napiszemy to samo polecenie:
 webhttrack
W celu uruchom interfejs graficzny, możemy przejść bezpośrednio przez menu aplikacji i szukamy aplikacji Przeglądaj strony lustrzane.

Inną opcją jest po prostu, jak powiedzieliśmy wcześniej z okna terminala, napisanie polecenia webhttrack, aby uruchomić lokalny serwer WWW na porcie 8080, następnie otwieramy przeglądarkę biorąc pod uwagę, że nie jest ona w trybie incognito lub prywatnym i w przeglądarce wpisujemy adres localhost: 8080.

To pokaże nam kreatora graficznego, który pomoże nam pracować z httrack, na początek będziemy musieli skonfigurować język i kliknąć Dalej. Następnie skonfigurujemy nowy projekt, zaletą posiadania interfejsu graficznego jest to, że możemy zapisać dane pobranych stron internetowych oraz zastosowane parametry w pliku tekstowym.

Następnie przypiszemy stronę, którą zamierzamy skopiować:

Następnie w Zdefiniuj opcje skonfigurujemy parametry i filtry za pomocą kreatora:

Następnie po skonfigurowaniu filtrów, na kolejnym ekranie zaczniemy od skanowania.

Wady korzystania z HttrackUżywanie narzędzia Httrack do wykonywania tego typu skanowania i pobierania ze strony internetowej ma pewne wady, takie jak:

  • Nie przechwytuje zawartości dynamicznej ani stron ze skryptami.
  • Pobieranie witryn, które są zbyt duże lub zawierają duże pliki, może spowodować awarię serwera.
  • Jeśli użyjemy httrack w zbyt wielu jednoczesnych połączeniach z tą samą witryną, możemy spowolnić serwer lub wyłączyć go.

Samouczek, w którym tworzony jest kod do śledzenia linków, może Cię zainteresować:

Śledź linki internetowe za pomocą Pythona

Podobał Ci się i pomógł ten samouczek?Możesz nagrodzić autora, naciskając ten przycisk, aby dać mu pozytywny punkt
wave wave wave wave wave