Robots.txt jako internetový standard?

21. Srpen 2019
Kateřina Čajanková
~6 minut
Komentáře

Protokol pro zakázání přístupu robotům, známý také jako robots.txt (v angličtině: Robots Exclusion Protocol – REP), je součástí internetu už dvacet pět let. Ačkoliv je jedním z nejdůležitějších a nejpoužívanějších prvků na celém webu, nikdy se nestal oficiálním internetovým standardem. V důsledku toho se objevovaly různé interpretace. Nyní by však mělo dojít ke změně. Google na začátku července předložil návrh o standardizaci a modernizaci protokolu.

Today we're announcing that after 25 years of being a de-facto standard, we worked with Martijn Koster (@makuk66), webmasters, and other search engines to make the Robots Exclusion Protocol an official standard!https://t.co/Kcb9flvU0b
— Google Webmasters (@googlewmc) 1. července 2019

Protokol robots.txt říká vyhledávačům, jak zacházet s webovými stránkami – tedy, které části webu procházet, které indexovat, a které naopak pro potřeby vyhledávání zakázat. Přestože existuje již čtvrt století, nikdy nedošlo k vytvoření standardu, který by tento protokol upravoval, ani k žádné aktualizaci, aby odpovídal potřebám současnosti. Proto se Google rozhodl předložit Komisi pro technickou stránku internetu (IETF) návrh o rozšíření a standardizaci REP, který je přizpůsoben modernímu prostředí webu a měl by ulehčit psaní pravidel.

Předložený návrh nemění pravidla, která v roce 1994 vytvořil Martijn Koster, ale spíše definuje všechny dosud nepokryté scénáře, rozbory a párování robots.txt. Mimoto obsahuje rozšíření pro moderní web. Díky tomuto návrhu by se z robots.txt mohl stát internetový standard.

Happy 25th birthday, robots.txt! You make the Internet a better place. You're the real MVP! pic.twitter.com/vxvZTcHpR3
— Google Webmasters (@googlewmc) 1. července 2019

Tvůrci dokumentu definují zejména následující pravidla:
REP se již neomezuje pouze na HTTP, ale může být použit jakýmkoliv přenosovým protokolem založeným na URI – lze jej tedy aplikovat například také ve FTP či CoAP.
Maximální doba ukládání do mezipaměti je nově 24 hodin, nebo dle hodnoty direktivy pro mezipaměť.To umožňuje majitelům webových stránek aktualizovat soubor robots.txt, kdykoli chtějí.

✒️Updated Google's Robots.txt spec to match REP draft✒️

????Follows 5 redirect hops
????️No crawl restrictions if unavailable >30 days
⚠️Unsuccessful requests=server error
????500 KiB size limit
????Supports URI-based protocols

Full list of changes: https://t.co/GXd6FWt2D0 #robotstxt25
— Lizzi Harvey (@LizziHarvey) 1. července 2019

Specifikace stanovují, že pokud se dříve dostupný soubor stane nepřístupným v důsledku selhání serveru, známé nepovolené stránky nebudou po určitou dobu procházeny.
Pokud je soubor robots.txt nedostupný kvůli chybám serveru nebo sítě, je to bráno jako by nebyl soubor definován a musí dojít k úplnému zakázání procházení. To platí po dobu 30 dnů. Po této době je k dispozici kopie souboru v mezipaměti. Jestliže v ní kopie souboru chybí, předpokládá se, že neexistují žádná omezení procházení.
Google v současné době prosazuje omezení velikosti na 500 kibibytů (KiB) a další obsah po dosažení tohoto limitu ignoruje. Definice maximální velikosti zmírní zbytečné zatížení serveru.

Společně s oznámením o předložení návrhu Google poskytnul zdrojovou C++ knihovnu používanou systémy Googlu k analýze a porovnávání pravidel v souborech robots.txt. Tento open source balíček obsahuje také testovací nástroj, který je vhodný k vyzkoušení různých pravidel.

To help developers create parsers that reflect the Robots Exclusion Protocol requirements, we're releasing our robots.txt parser as open source!
Updated to cover all corner cases, the parser ensures that Googlebot only crawls what it's allowed to.https://t.co/NmbLRzDkHF
— Google Webmasters (@googlewmc) 1. července 2019

Později na blogu Google oznámil, že přestane podporovat noindex směrnice a další nepublikovaná pravidla v souboru robots.txt. Tyto změny začnou platit od 1. září 2019. V případě, že v souboru robots.txt direktivu noindex používáte, může se stát, že Google bude indexovat stránky, u kterých to vy nechcete.

Google zároveň žádá všechny vývojáře i lidi zajímající se o toto téma o zaslání zpětné vazby. Pokud tedy máte k návrhu internetového standardu REP co říct, určitě svůj názor s lidmi z Googlu sdílejte. Můžete tak učinit přes Twitter nebo v Google komunitě pro webmastery.

Robots.txt jako internetový standard?

Katka Čajanková

Vyhledávání

Témata

Nejčtenější články

Nejnovější články