Protokol pro zakázání přístupu robotům, známý také jako robots.txt (v angličtině: Robots Exclusion Protocol – REP), je součástí internetu už dvacet pět let. Ačkoliv je jedním z nejdůležitějších a nejpoužívanějších prvků na celém webu, nikdy se nestal oficiálním internetovým standardem. V důsledku toho se objevovaly různé interpretace. Nyní by však mělo dojít ke změně. Google na začátku července předložil návrh o standardizaci a modernizaci protokolu.

Protokol robots.txt říká vyhledávačům, jak zacházet s webovými stránkami – tedy, které části webu procházet, které indexovat, a které naopak pro potřeby vyhledávání zakázat. Přestože existuje již čtvrt století, nikdy nedošlo k vytvoření standardu, který by tento protokol upravoval, ani k žádné aktualizaci, aby odpovídal potřebám současnosti. Proto se Google rozhodl předložit Komisi pro technickou stránku internetu (IETF) návrh o rozšíření a standardizaci REP, který je přizpůsoben modernímu prostředí webu a měl by ulehčit psaní pravidel.

Předložený návrh nemění pravidla, která v roce 1994 vytvořil Martijn Koster, ale spíše definuje všechny dosud nepokryté scénáře, rozbory a párování robots.txt. Mimoto obsahuje rozšíření pro moderní web. Díky tomuto návrhu by se z robots.txt mohl stát internetový standard.

Tvůrci dokumentu definují zejména následující pravidla:
REP se již neomezuje pouze na HTTP, ale může být použit jakýmkoliv přenosovým protokolem založeným na URI – lze jej tedy aplikovat například také ve FTP či CoAP.
Maximální doba ukládání do mezipaměti je nově 24 hodin, nebo dle hodnoty direktivy pro mezipaměť.To umožňuje majitelům webových stránek aktualizovat soubor robots.txt, kdykoli chtějí.

  • Specifikace stanovují, že pokud se dříve dostupný soubor stane nepřístupným v důsledku selhání serveru, známé nepovolené stránky nebudou po určitou dobu procházeny.
  • Pokud je soubor robots.txt nedostupný kvůli chybám serveru nebo sítě, je to bráno jako by nebyl soubor definován a musí dojít k úplnému zakázání procházení. To platí po dobu 30 dnů. Po této době je k dispozici kopie souboru v mezipaměti. Jestliže v ní kopie souboru chybí, předpokládá se, že neexistují žádná omezení procházení.
  • Google v současné době prosazuje omezení velikosti na 500 kibibytů (KiB) a další obsah po dosažení tohoto limitu ignoruje. Definice maximální velikosti zmírní zbytečné zatížení serveru.

Společně s oznámením o předložení návrhu Google poskytnul zdrojovou C++ knihovnu používanou systémy Googlu k analýze a porovnávání pravidel v souborech robots.txt. Tento open source balíček obsahuje také testovací nástroj, který je vhodný k vyzkoušení různých pravidel.

Později na blogu Google oznámil, že přestane podporovat noindex směrnice a další nepublikovaná pravidla v souboru robots.txt. Tyto změny začnou platit od 1. září 2019. V případě, že v souboru robots.txt direktivu noindex používáte, může se stát, že Google bude indexovat stránky, u kterých to vy nechcete.

Google zároveň žádá všechny vývojáře i lidi zajímající se o toto téma o zaslání zpětné vazby. Pokud tedy máte k návrhu internetového standardu REP co říct, určitě svůj názor s lidmi z Googlu sdílejte. Můžete tak učinit přes Twitter nebo v Google komunitě pro webmastery.