Crawling: jak roboti procházejí web a co je brzdí

Crawling je procházení webu roboty vyhledávačů, kteří po odkazech objevují stránky a stahují jejich obsah. Bez crawlingu se stránka nedostane do indexu.

Co je crawling?

Robot (u Googlu Googlebot) funguje jako neúnavný čtenář: přijde na stránku, přečte ji a po odkazech pokračuje dál. Tak postupně objevuje nové i změněné stránky. Crawling je první ze tří kroků, na konci kterých je indexace a možnost rankovat.

Jak roboti objevují stránky

Dvěma hlavními cestami: po odkazech (interních i zpětných) a přes XML sitemapu, kterou jim web nabídne. Proto je důležitá čistá struktura a interní prolinkování. Stránka, na kterou nic neodkazuje (tzv. osiřelá stránka), se hledá těžko.

Co crawling brzdí

Pomalý web a chyby serveru. Robot má omezený čas, viz crawl budget.
Blokace v souboru robots.txt (někdy omylem).
Smyčky přesměrování a rozbité odkazy.
Obsah dostupný jen po složité interakci, který robot nespustí.

Pravidlo je jednoduché: co robot snadno projde, to má šanci se umístit. Co neprojde, jako by neexistovalo.