Spisie treści
Gdy wyszukiwarki docierają do witryny, zaczynają szukać pliku robots.txt, aby go przeczytać. Będzie to zależeć od jego zawartości, tak aby pająk wyszukiwarek kontynuował pracę w witrynie lub przechodził do innej.Plik robots.txt zawiera listę stron, które mogą być indeksowane przez wyszukiwarkę, co z kolei selektywnie ogranicza dostęp do niektórych wyszukiwarek.
Jest to plik ASCII, który musi znajdować się w katalogu głównym witryny. Polecenia, które może zawierać, to:
Użytkownik agenta: Służy do określenia, który robot będzie wykonywał przedstawione polecenia.
Nie pozwalaj: Służy do określenia, które strony zostaną wykluczone podczas procesu analizy przez wyszukiwarkę. Ważne jest, aby każda wykluczona strona miała osobne wiersze i zaczynała się od symbolu /. Za pomocą tej symboliki jest to określone; do „wszystkich stron serwisu”.
Niezwykle ważne jest, aby plik robots.txt nie zawierał żadnych pustych wierszy.
Niektóre przykłady przedstawiono poniżej;
- Kiedy chcesz wykluczyć wszystkie strony; agent użytkownika to: Nie zezwalaj: /.
- Jeśli celem nie jest wykluczenie żadnej strony, plik robotos.txt nie może istnieć w witrynie, co oznacza, że wszystkie strony witryny będą odwiedzane w równym stopniu.
- W przypadku wykluczenia konkretnego robota będzie to:
- Użytkownik agenta: Nazwa robota Nie zezwalaj: / Użytkownik agenta: * Nie zezwalaj:
- Gdy strona jest wykluczona; Użytkownik agenta: * Nie zezwalaj na: /katalog/ścieżka/strona.html
- Gdy wszystkie strony katalogu zostaną wykluczone ze strony internetowej wraz z odpowiadającymi im podfolderami, będzie to; Użytkownik agenta: * Nie zezwalaj na: / katalog /
Inną funkcją jest zapobieganie indeksowaniu zduplikowanych treści znalezionych w witrynie, aby nie zostać ukaranym.
Inne kwestie, które należy wziąć pod uwagę, to fakt, że niektóre roboty mogą ignorować instrukcje zawarte w tym pliku, a także musi być jasne, że plik jest publiczny, ponieważ każdy, kto pisze www.example.com/robots.txt, może mieć do niego dostęp.
Teraz pytanie może brzmieć; Jak wygenerować plik robots.txt?
W rzeczywistości jest to dość proste, ponieważ jest to dokument tekstowy o nazwie „robots.txt”, a następnie przesyła go do katalogu głównego domeny strony, to tam wyszukiwarki będą szukać go do odczytania.
Podstawowy plik robots.txt może mieć postać:
Agent użytkownika: *
Nie zezwalaj: / prywatne /
Generowane są instrukcje odmowy dostępu do katalogu, który będzie „prywatny” dla wszystkich wyszukiwarek.
Polecenie określa, że jest skierowane do wszystkich robotów (User-agent: *), określając, że katalog jest niedozwolony (Disallow: / private /).
Parametr używany w wyszukiwarce Google to; Klient użytkownika: Googlebot
Jak wspomniano wcześniej, jego wykorzystanie w SEO służy do ograniczania dostępu robotów do duplikatów treści.Podobał Ci się i pomógł ten samouczek?Możesz nagrodzić autora, naciskając ten przycisk, aby dać mu pozytywny punkt