✅ Robots.txt lub standard wykluczania robotów i indeksowanie w wyszukiwarkach

Spisie treści

Witam wszystkich, zaczynam od tego samouczka na temat robots.txt, mam nadzieję, że Ci się spodoba

Zezwól wszystkim robotom na odwiedzanie wszystkich plików przechowywanych w głównym katalogu sieci:

 Klient użytkownika: * Nie zezwalaj:

Blokuj dostęp do wszystkich robotów i wszystkich plików przechowywanych w katalogu głównym:

 Klient użytkownika: * Nie zezwalaj: /

Zezwól tylko jednemu robotowi na dostęp, w tym przykładzie tylko Google będzie mógł się indeksować

 User-agent: googlebot Disallow: User-agent: * Disallow: /

Najpopularniejsze roboty mają nazwę do wykorzystania w kliencie użytkownika
googlebot => dla Google
msnbot => Wyszukiwanie MSN
yahoo-slurp => Yahoo!
scrubby => Szoruj sieć
robozilla => Kontroler DMOZ
ia_archiver => Alexa / Wayback
baiduspider => Baidu
Istnieją również bardziej specyficzne roboty, takie jak te na zdjęciach
googlebot-image => Grafika Google
googlebot-mobile => Google Mobile
Inny przykład, w którym wszystkie podkatalogi zawierające symbol wieloznaczny (/) muszą być zablokowane, tylko te, z wyjątkiem wszystkich innych plików i katalogów, które nie zawierają symbolu wieloznacznego, nominalnie zablokowane są katalogi systemowe lub zaplecza:

 User-agent: * Disallow: / cgi-bin / Disallow: / images / Disallow: / tmp / Disallow: / adminstrador /

Zapobiegaj śledzeniu określonego pliku

 Klient użytkownika: * Disallow: /page.htm

Jest to często używane, gdy chcemy wyeliminować stronę, która wyświetla błąd 404 lub usunąć stronę z wyników wyszukiwania, zapobiegając w ten sposób jej indeksowaniu.
Zarządzaj częstotliwością pełzających robotów
Z Google Analytics i od webmastertools możesz zobaczyć statystyki możesz również zauważyć, że czasami niektóre roboty zajmują dużo czasu, aby przeglądać naszą stronę i przesyłać żądania do serwera, roboty zużywają przepustowość i zasoby, jakby były kolejnymi użytkownikami.
Jest sposób na to, że roboty nie wymkną się spod kontroli, możemy każdemu powiedzieć
Klient użytkownika: googlebot Opóźnienie indeksowania: 30
Dzięki temu informujemy robota Google, aby odczekał 30 sekund między każdym indeksowaniem. Bądź ostrożny, ponieważ opóźnienie indeksowania może nie być obsługiwane przez wszystkie wyszukiwarki, Bing i Google.
Oficjalna strona internetowa robots.txt To właśnie na http://www.robotstxt.org/ znajdziemy nazwy wszystkich robotów, specyfikacje kodu. Tutaj ujawnia się, że roboty służą do standaryzacji tych, które muszą być śledzone i są używane na innych platformach do śledzenia i walidacji html, walidacji linków, indeksowania informacji, aktualizacji treści w wyszukiwarkach, ochrony stron internetowych.Podobał Ci się i pomógł ten samouczek?Możesz nagrodzić autora, naciskając ten przycisk, aby dać mu pozytywny punkt