Pomoc - Szukaj - Użytkownicy - Kalendarz
Pełna wersja: Ograniczenie częstotliwości indeksowania strony przez MSNBota
Pozycjonowanie stron - Forum dyskusyjne - Reklama internetowa > Katalogi i wyszukiwarki > Pozostałe wyszukiwarki
Marcin_
Witam wszystkich!

Mam problem z robotem wyszukiwarki MSN/Live Search, który bardzo często odwiedza moją stronę, zużywając mnóstwo transferu. W samym październiku, według moich statystyk, MSNBot wykorzystał aż 150 MB transferu na 1 GB miesięcznego limitu! Jest to dość niepokojące i jak tak dalej pójdzie, będę musiał dokupić dodatkowy transfer specjalnie dla tego robota. Poza tym moja strona jest rzadko aktualizowana, ale – pomimo znikomego ruchu generowanego przez wyszukiwarkę Microsoftu – nie chcę całkowicie zabraniać pajączkowi MSN/Live Search odwiedzania jej. Czy istnieje jakakolwiek możliwość zmniejszenia częstotliwości przeglądania witryny przez MSNBota? Z góry bardzo dziękuję za ewentualną pomoc!
A. Pawlus
Wystarczy zapoznać się ze wskazówkami zawartymi w dziale pomocy dla webmasterów wyszukiwarki Windows Live, gdzie dokładnie omówiony został opisany powyżej problem:
CYTAT
Gdy przeszukiwarka MSNBot przeszukuje witrynę, zazwyczaj nie próbuje uzyskiwać dostępu do witryny częściej niż raz na kilka sekund. Jeśli przeszukiwarka MSNBot wykryje, że witryna używa wolnego połączenia, automatycznie dostosuje częstotliwość. Aby określić minimalną częstotliwość (w sekundach), należy użyć parametru Crawl-delay w pliku robots.txt. Na przykład:

User-agent: msnbot

Crawl-delay: 120

Indywidualne sekcje ustawień przeszukiwarek zastępują ustawienia w sekcjach oznaczonych znakiem *. Jeżeli zostały wybrane ustawienia Disallow dla wszystkich przeszukiwarek, ustawienia Disallow należy dodać do sekcji MSNBot tworzonej w pliku robots.txt. Plik robots.txt może zawierać następujące przykładowe ustawienia:

User-agent: *

Disallow: /private/

Po dodaniu sekcji MSNBot należy dodać wszystkie ustawienia Disallow w sekcji MSNBot. Na przykład:

User-agent: msnbot

Crawl-delay: 120

Disallow: /private/


Pozdrawiam,
A. Pawlus.
Marcin_
Dziękuję za szybką i rzetelną odpowiedź. Na pewno wypróbuję podany sposób i napiszę, czy przyniósł oczekiwane rezultaty. Zastanawia mnie jednak, dlaczego wszystkie validatory, którymi sprawdzałem poprawność mojego nowego pliku robots.txt, pokazują błąd: Unexpected line: Crawl-delay: 120.
A. Pawlus
CYTAT(Marcin_ @ Nov 17 2006, 08:00 AM) *
(...) Zastanawia mnie jednak, dlaczego wszystkie validatory, którymi sprawdzałem poprawność mojego nowego pliku robots.txt, pokazują błąd: Unexpected line: Crawl-delay: 120.

Niestety opcja Crawl-delay nie znajduje się w specyfikacji pliku robots.txt, jednak z powodzeniem spełnia swoje zadanie, ograniczając częstotliwość indeksowania serwisu przez roboty niektórych wyszukiwarek.
Dorota Matysiak
Mam podobny problem, jak Marcin, tyle że dotyczy on robota wyszukiwarki Yahoo. Czy polecenie crawl-delay jest brane pod uwagę także przez Yahoo! Slurpa?
A. Pawlus
CYTAT(Dorota Matysiak @ Dec 11 2006, 06:50 PM) *
Mam podobny problem, jak Marcin, tyle że dotyczy on robota wyszukiwarki Yahoo. Czy polecenie crawl-delay jest brane pod uwagę także przez Yahoo! Slurpa?

Yahoo! Slurp także obsługuje instrukcję Crawl-delay. Więcej informacji znajduje się w dziale pomocy wyszukiwarki:

CYTAT
Since we crawl billions of pages from the entire Web, we use a large number of systems for web crawling. Therefore your web server may log requests from a number of different Yahoo! crawler client IP addresses. The different crawler systems are coordinated to limit the activity on any single web server. We determine a single "web server" by IP address, so if your host is serving multiple IPs it may see higher levels of activity.

If there are directories on your web server which you do not want represented in web search results, use robot exclusion rules as described in "How do I prevent certain subdirectories from being crawled". An exclusion rule can reduce the number of pages Slurp will read from your server.

There is a Yahoo! Slurp-specific extension to robots.txt which allows you to set a lower limit on our crawler request rate.

You can add a "Crawl-delay: xx" instruction, where "xx" is a delay value between successive crawler accesses. If the crawler rate is a problem for your server, you can set the delay up to 5 or 10 or a comfortable value for your server.

Setting a crawl-delay of 10 for Yahoo! Slurp would look something like:

User-agent: Slurp
Crawl-delay: 10

In general you should restrict total crawler activity to your server by disallowing unimportant content with a robots.txt rule. Setting a crawl-delay may limit the coverage and freshness of your content representation in Yahoo! search results. If you do feel that a crawl-delay is necessary, use small values to avoid blocking Slurp discovery and refresh of your key content.


Pozdrawiam,
A. Pawlus
To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.
Invision Power Board © 2001-2012 Invision Power Services, Inc.