Robots.txt - přístup robotů na web

Robots.txt je textový soubor, který obsahuje základní informace pro internetové boty (crawlery, roboty). Definuje co můžou indexovat a co indexovat nesmí. V robots.txt může být také informace o umístění mapy webu pro vyhledávače, pokud se soubr nenachází v kořenovém adresáři.

Umístění robots.txt

Robots.txt má být umístěn v kořenovém adresáři webu. V případě SEOwebmaster.cz je to tedy URL http://seowebmaster.cz/robots.txt. Pokud dostanete oznámení E404, tak soubor na vašem webu neexistuje.

Zápis robots text

User agent: definuje robota, kterému je pravidlo určeno. V případě * se jedná o všechny roboty. Pokud je uvedeno jméno robota, tak pravidlo platí jen pro uvedeného robota. user-agent: * - platí pro všechny roboty user-agent: googlebot - platí pro googlebota user-agent: seznambot - platí pro seznambota Disallow: pravidlo určuje složky a soubory, které nemají být indexovány Allow: pravidlo určuje složky a soubory, které mají být indexovány Sitemap: uvádí umístění mapy webu pro vyhledávače Volný řádek: odděluje od sebe příkazy různým robotům #: na počátku řádku s poznámkou autora

Povolení přístupu

Co není zakázáno, je povoleno. Pokud nezakážeme indexaci, tak roboti indexovat budou. user-agent: * - platí pro všechny roboty disallow: - indexovat celý web K přímému povolení můžeme použít i příkaz allow. user-agent: * - platí pro všechny roboty allow: / - indexovat celý web

Zakázání přístupu

Všechny soubory, které jsou na internetu nemusí být určené veřejnosti. Proto je vhodné zakázat crawlerům procházet a indexovat určité URL a složky. Pokud indexaci nezakážeme, tak se považuje za povolenou. Z toho vzniká nebezpečí Google hacking, tedy využití vyhledávače Google k získání citlivých informací, nebo zranitelností redakčního systému. user-agent: * - platí pro všechny roboty disallow: / - neindexovat celý web user-agent: * disallow: /neindexovat - neindexovat URL disallow: /neindexovat-soubor.html - neindexovat URL disallow: /neindexovat-soubor.php - neindexovat URL disallow: /neindexovat/ - neindexovat adresář

Kombinace disallow a allow

V některých případech chceme zakázat procházení celou složku, ale rádi bychom nechali zaindexovat jen jediný soubor. To lze provést pomocí kombinace allow a disallow. user-agent: * disallow: /neindexovat-slozku/ - zakáže indexovat složku allow: /neindexovat-slozku/tento_soubor_zaindexuj.html - zaindexuje webovou stránku "tento_soubor_zaindexuj.html"

Umístění sitemap.xml

Pokud z nějakého důvodu nemáme sitemap.xml umístěnou v kořenovém adresáři webu, tak zadáme URL mapy do robots.txt: Sitemap: http://example.com/cesta_k_mape/sitemap.xml

Ukázky zápisu robots.txt

Zákaz procházení celého webu Googlebotem a povolení indexace celého webu Seznambotem: user-agent: googlebot disallow: / user-agent: seznambot disallow: Zákaz procházení celého webu všem robotům mimo Googlebota: user-agent: * disallow: / user-agent: googlebot disallow:

Vyzkoušej nás

Nechejte nás hlídat a kontrolovat váš projekt.

a připoj se k 866 projektům