Soubor robots.txt — je to základní soubor, který popisuje pravidla pro zpracování stránek vyhledávací roboty. Tento soubor potřebujete pro určení hlavní název webu, sitemap (sitemap.xml), otevřených a uzavřených částí webu.
Soubor robots.txt zahrnuje následující směrnice:
- User-agent — směrnice který určuje pro jaký robot níže uvedená pravidla
- * - všechny roboty
- Yandex — základní robot Yandex
- Googlebot — hlavní prohledávač Google
- StackRambler — vyhledávací robot Rambler
- Aport — vyhledávací robot Апорт
- Slurp — robot Yahoo
- MSNBot — robot MSN
- Disallow — směrnice o zákazu části stránky
- Allow — směrnice o povolení části stránky
- Host — směrnice, pokyny, hlavní název webu
- Sitemap— směrnice, pokyny, mapy stránek (sitemap.xml)
- Crawl-delay — směrnice který určuje, kolik sekund může robot čekat na odpověď od webové stránky (je zapotřebí na silně zatížené zdroje, aby robot nemá napadlo stránky nedostupné)
- Clean-param — směrnice popisující dynamické parametry nemají vliv na obsah stránek
Помимо директив в robots.txt используются спец символы:
- * - любай (i prázdná) posloupnost znaků
- $ — je omezení pravidla
Pro zhotovení robots.txt používají výše uvedené směrnice a speth znaky na následujícím principu:
- Určuje název robota, pro kterého je psaný seznam pravidel
(User-agent: * - platí pro všechny roboty) - Píše seznam zakázaných stránek oddílů pro konkrétního robota
( Disallow: / - zákaz indexování celého webu) - Píše seznam povolených částí webu
(Allow: /home/ — je povolen sekce home) - Určuje název stránky
(Host: crazysquirrel.ru — hlavní název webu crazysquirrel.ru) - Určuje absolutní cestu k souboru sitemap.xml
(Sitemap: https:// crazysquirrel.ru/sitemap.xml)
Pokud na webu není zakázané oddílu, pak robots.txt by se měl skládat nejméně ze 4 stehů:
User-Agent: *
Allow: /
Host: crazysquirrel.ru
Sitemap: https://crazysquirrel.ru/sitemap.xml
Zkontrolujte, zda robots.txt a to, jak ovlivňuje indexování stránek lze s pomocí nástrojů Yandex