Crawlers - internetoví roboti (nejen ) vyhledávačů

Crawler, nebo také bot, či spider je program, který automaticky skenuje stránky a objevuje nové pomocí následování odkazů umístěných na stránce. Crawlery využívají všechny vyhledávače k procházení internetu. Každý bot indexují určitý typ informací. Pravidla pro procházení webu roboty stanovuje robots.txt

Google crawlers

Crawler User-agents Popis
Googlebot Googlebot/2.1 Crawler pro indexaci textového a HTML obsahu webových stránek. Slouží k indexaci textového obsahu webových stránek pro fulltextové vyhledávání . Neumí číst obrázky proto musíme k obrázkům dopisovat alt tagy, aby jim Googlebot/2.1 porozuměl.
Googlebot News Googlebot-News Jedná se o stejný crawler jako je klasický Googlebot. Googlebot-News slouží spíše k negativnímu vymezení. Pokud nechceme, aby se obsah zobrazoval na Google News, tak můžeme zakázat Googlebot-News robota a tím zamezit zařazení obsahu.
Googlebot Images Googlebot-Image/1.0 Bot pro indexování obrázků. V současné době je používaná verze Googlebot-Image/1.0 . Výsledky indexace slouží pro vyhledávání obrázků.
Googlebot Video Googlebot-Video/1.0 Robot pro indexování video obsahu webových stránek. Získaná data slouží pro vyhledávání na videa přes Google
Google Mobile Googlebot-Mobile/2.1; Robot, který vyhledává webové stránky určené pro mobilní zařízení. Zároveň slouží i ke konverzi klasických webových stránek do formátu webových stránek pro mobilní zařízení.
Google Mobile AdSense Mediapartners-Google/2.1 ) Tento robot slouží k objevování a indexování obsahu webových stránek zaměřených na mobilní zařítení.Data jsou sbírána pro reklamní systém Google AdSence. Získaná data slouží k účelu zajištění co nejvíce tématické inzerce u Google reklam na mobilních zařízeních.
Google AdSense Mediapartners-Google Tento robot slouží k objevování a indexování obsahu pro reklamní systém Google AdSence. Získaná data slouží k účelu zajištění co nejvíce tématické inzerce u Google reklam.
Google AdsBot AdsBot-Google Robot, který navštěvuje jen konkrétní URL při zadání našeho požadavku v Google Adwords. Robot má za úkol zkontrolovat kvalitu landing page pro konkrétní PPC kampaň.
Feedfetcher Feedfetcher-Google Bot RSS kanálu Google pro odběr novinek.

Seznam boti

Crawler User-agents Popis
Seznambot SeznamBot 3.0 Bot indexující textový a HTML obsah webových stránek. Získaná data jsou použita pro vyhledávač Seznam.cz
Seznam Screenshot Seznam screenshot-generator 2.0 Vytváří náhledy - screeny webových stránek. Náhledy se zobrazují ve výsledcích vyhledávání na Seznam.cz. V současné době by se měl náhled vždy zobrazovat pro konkrétní URL

Bing boti

Crawler User-agents Popis
Bingbot Bingbot 2.0 Základní bot vyhledvače Bing.com, který slouží k indexaci obsahu webových stránek.
Adidxbot Adidxbot/1 Bot reklamního systému vyhledávače Bing. Bot má za úkol kontrolovat kvalitu webů, na kterých je umístěna reklama od Bing.
MSNbot msnbot 2.1;
msnbot 2.0b; msnbot 1.1; msnbot 1.0; msnbot 0.9; msnbot 0.11; msnbot 0.1
Boti pro indexaci multimediálního obsahu. MSNbot má být postupně nahrazen Bingbotem.

Dalši užiteční boti

Občas na české weby zavítá i Yandex bot, který slouží ruskému vyhledávači Yandex.ru a Yandex.com, ale zaznamenal jsem i návštěvu robota BaiDuSpider čínského vyhledávače Baidu.com .

Pavouci ( spider, bot, crawler ) nemusí sloužit jen pro vyhledávače. Roboty využívají i jiné internetové služby. Může se jednat o robota RSS čtečky, nebo robota, který kontroluje zpětné odkazy, nebo jiné SEO faktory webu ( např. MJ12bot - bot MajesticSEO.com; Findlinks - kontrola odkazů, bitlybot - zkracování odkazů ).

Boti temné strany

Boti ( crawlery, spidery) neslouží vždy jen v prospěch webových stránek. Boty využívají i spameři k těžbě emailových adres, ale jdou využít i k vyhledávání zranitelností. Podrobněji se tomuto tématu věnuje projekt ProjectHoneyPot.org


Podrobný seznam crawlerů naleznete na User-Agent-String.info