Robots.txt je textový soubor, který obsahuje základní informace pro internetové boty (crawlery, roboty). Definuje co můžou indexovat a co indexovat nesmí. V robots.txt může být také informace o umístění mapy webu pro vyhledávače, pokud se soubr nenachází v kořenovém adresáři.
Umístění robots.txt
Robots.txt má být umístěn v kořenovém adresáři webu. V případě SEOwebmaster.cz je to tedy URL
http://seowebmaster.cz/robots.txt. Pokud dostanete oznámení E404, tak soubor na vašem webu neexistuje.
Zápis robots text
User agent: definuje robota, kterému je pravidlo určeno. V případě * se jedná o všechny roboty. Pokud je uvedeno
jméno robota, tak pravidlo platí jen pro uvedeného robota.
user-agent: *
- platí pro všechny roboty
user-agent: googlebot
- platí pro googlebota
user-agent: seznambot
- platí pro seznambota
Disallow: pravidlo určuje složky a soubory, které nemají být indexovány
Allow: pravidlo určuje složky a soubory, které mají být indexovány
Sitemap: uvádí umístění mapy webu pro vyhledávače
Volný řádek: odděluje od sebe příkazy různým robotům
#: na počátku řádku s poznámkou autora
Povolení přístupu
Co není zakázáno, je povoleno. Pokud nezakážeme indexaci, tak roboti indexovat budou.
user-agent: *
- platí pro všechny roboty
disallow:
- indexovat celý web
K přímému povolení můžeme použít i příkaz allow.
user-agent: *
- platí pro všechny roboty
allow: /
- indexovat celý web
Zakázání přístupu
Všechny soubory, které jsou na internetu nemusí být určené veřejnosti. Proto je vhodné zakázat crawlerům procházet a indexovat určité URL a složky. Pokud indexaci nezakážeme, tak se považuje za povolenou. Z toho vzniká nebezpečí
Google hacking, tedy využití vyhledávače Google k získání citlivých informací, nebo zranitelností redakčního systému.
user-agent: *
- platí pro všechny roboty
disallow: /
- neindexovat celý web
user-agent: *
disallow: /neindexovat
- neindexovat URL
disallow: /neindexovat-soubor.html
- neindexovat URL
disallow: /neindexovat-soubor.php
- neindexovat URL
disallow: /neindexovat/
- neindexovat adresář
Kombinace disallow a allow
V některých případech chceme zakázat procházení celou složku, ale rádi bychom nechali zaindexovat jen jediný soubor. To lze provést pomocí kombinace allow a disallow.
user-agent: *
disallow: /neindexovat-slozku/
- zakáže indexovat složku
allow: /neindexovat-slozku/tento_soubor_zaindexuj.html
- zaindexuje webovou stránku "tento_soubor_zaindexuj.html"
Umístění sitemap.xml
Pokud z nějakého důvodu nemáme sitemap.xml umístěnou v kořenovém adresáři webu, tak zadáme URL mapy do robots.txt:
Sitemap: http://example.com/cesta_k_mape/sitemap.xml
Ukázky zápisu robots.txt
Zákaz procházení celého webu Googlebotem a povolení indexace celého webu Seznambotem:
user-agent: googlebot
disallow: /
user-agent: seznambot
disallow:
Zákaz procházení celého webu všem robotům mimo Googlebota:
user-agent: *
disallow: /
user-agent: googlebot
disallow: