Crawler, nebo také bot, či spider je program, který automaticky skenuje stránky a objevuje nové pomocí následování odkazů umístěných na stránce. Crawlery využívají všechny vyhledávače k procházení internetu. Každý bot indexují určitý typ informací. Pravidla pro procházení webu roboty stanovuje robots.txt
Google crawlers
Crawler |
User-agents |
Popis |
Googlebot |
Googlebot/2.1 |
Crawler pro indexaci textového a HTML obsahu webových stránek. Slouží k indexaci textového obsahu webových stránek pro fulltextové vyhledávání . Neumí číst obrázky proto musíme k obrázkům dopisovat alt tagy, aby jim Googlebot/2.1 porozuměl. |
Googlebot News |
Googlebot-News |
Jedná se o stejný crawler jako je klasický Googlebot. Googlebot-News slouží spíše k negativnímu vymezení. Pokud nechceme, aby se obsah zobrazoval na Google News, tak můžeme zakázat Googlebot-News robota a tím zamezit zařazení obsahu. |
Googlebot Images |
Googlebot-Image/1.0 |
Bot pro indexování obrázků. V současné době je používaná verze Googlebot-Image/1.0 . Výsledky indexace slouží pro vyhledávání obrázků. |
Googlebot Video |
Googlebot-Video/1.0 |
Robot pro indexování video obsahu webových stránek. Získaná data slouží pro vyhledávání na videa přes Google |
Google Mobile |
Googlebot-Mobile/2.1; |
Robot, který vyhledává webové stránky určené pro mobilní zařízení. Zároveň slouží i ke konverzi klasických webových stránek do formátu webových stránek pro mobilní zařízení. |
Google Mobile AdSense |
Mediapartners-Google/2.1 ) |
Tento robot slouží k objevování a indexování obsahu webových stránek zaměřených na mobilní zařítení.Data jsou sbírána pro reklamní systém Google AdSence. Získaná data slouží k účelu zajištění co nejvíce tématické inzerce u Google reklam na mobilních zařízeních. |
Google AdSense |
Mediapartners-Google |
Tento robot slouží k objevování a indexování obsahu pro reklamní systém Google AdSence. Získaná data slouží k účelu zajištění co nejvíce tématické inzerce u Google reklam.
|
Google AdsBot |
AdsBot-Google |
Robot, který navštěvuje jen konkrétní URL při zadání našeho požadavku v Google Adwords. Robot má za úkol zkontrolovat kvalitu landing page pro konkrétní PPC kampaň. |
Feedfetcher |
Feedfetcher-Google |
Bot RSS kanálu Google pro odběr novinek. |
Seznam boti
Crawler |
User-agents |
Popis |
Seznambot |
SeznamBot 3.0 |
Bot indexující textový a HTML obsah webových stránek. Získaná data jsou použita pro vyhledávač Seznam.cz |
Seznam Screenshot |
Seznam screenshot-generator 2.0 |
Vytváří náhledy - screeny webových stránek. Náhledy se zobrazují ve výsledcích vyhledávání na Seznam.cz. V současné době by se měl náhled vždy zobrazovat pro konkrétní URL |
Bing boti
Crawler |
User-agents |
Popis |
Bingbot |
Bingbot 2.0 |
Základní bot vyhledvače Bing.com, který slouží k indexaci obsahu webových stránek. |
Adidxbot |
Adidxbot/1 |
Bot reklamního systému vyhledávače Bing. Bot má za úkol kontrolovat kvalitu webů, na kterých je umístěna reklama od Bing. |
MSNbot |
msnbot 2.1;
msnbot 2.0b; msnbot 1.1; msnbot 1.0; msnbot 0.9; msnbot 0.11; msnbot 0.1 |
Boti pro indexaci multimediálního obsahu. MSNbot má být postupně nahrazen Bingbotem. |
Dalši užiteční boti
Občas na české weby zavítá i
Yandex bot, který slouží ruskému vyhledávači
Yandex.ru a
Yandex.com, ale zaznamenal jsem i návštěvu robota
BaiDuSpider čínského vyhledávače
Baidu.com .
Pavouci ( spider, bot, crawler ) nemusí sloužit jen pro vyhledávače. Roboty využívají i jiné internetové služby. Může se jednat o robota RSS čtečky, nebo robota, který kontroluje zpětné odkazy, nebo jiné SEO faktory webu ( např.
MJ12bot - bot MajesticSEO.com;
Findlinks - kontrola odkazů,
bitlybot - zkracování odkazů ).
Boti temné strany
Boti ( crawlery, spidery) neslouží vždy jen v prospěch webových stránek. Boty využívají i spameři k těžbě emailových adres, ale jdou využít i k vyhledávání zranitelností. Podrobněji se tomuto tématu věnuje projekt
ProjectHoneyPot.org
Podrobný seznam crawlerů naleznete na
User-Agent-String.info