Crawling je procházení webu roboty vyhledávačů, kteří po odkazech objevují stránky a stahují jejich obsah. Bez crawlingu se stránka nedostane do indexu.
Co je crawling?
Robot (u Googlu Googlebot) funguje jako neúnavný čtenář: přijde na stránku, přečte ji a po odkazech pokračuje dál. Tak postupně objevuje nové i změněné stránky. Crawling je první ze tří kroků, na konci kterých je indexace a možnost rankovat.
Jak roboti objevují stránky
Dvěma hlavními cestami: po odkazech (interních i zpětných) a přes XML sitemapu, kterou jim web nabídne. Proto je důležitá čistá struktura a interní prolinkování. Stránka, na kterou nic neodkazuje (tzv. osiřelá stránka), se hledá těžko.
Co crawling brzdí
- Pomalý web a chyby serveru. Robot má omezený čas, viz crawl budget.
- Blokace v souboru
robots.txt(někdy omylem). - Smyčky přesměrování a rozbité odkazy.
- Obsah dostupný jen po složité interakci, který robot nespustí.
Pravidlo je jednoduché: co robot snadno projde, to má šanci se umístit. Co neprojde, jako by neexistovalo.