Al fine di convincere la comunità di sviluppatori ad utilizzare il Robots Exclusion Protocol (REP) come uno standard di settore, Google ha deciso di incentivarne l’interesse rendendo open source il proprio set di istruzioni robots.txt.

Il Robots Exclusion Protocol, che è stato proposto come standard dall’ingegnere software olandese Martijn Koster nel 1994, è diventato il più utilizzato dai siti Web per indicare ai crawler automatizzati quali parti di un sito Web non devono essere elaborate.

Il crawler Googlebot di Google, ad esempio, analizza il file robots.txt durante l’indicizzazione dei siti Web per verificare istruzioni speciali su quali sezioni deve ignorare e, se non esiste tale file nella directory root, presuppone che sia corretto eseguire la scansione (e l’indicizzazione) dell’intero sito. Questi file non vengono sempre utilizzati per fornire istruzioni di scansione diretta, poiché possono anche essere riempiti con determinate parole chiave al fine di migliorare l’ottimizzazione dei motori di ricerca.

Mentre il Robots Exclusion Protocol viene spesso definito uno “standard”, non è mai diventato un vero standard di Internet, come definito dall’Internet Engineering Task Force (IETF) – l’organizzazione open-profit senza scopo di lucro che si occupa di regolamentare i protocolli di Internet.

Google ha riferito che il REP, così com’è, è aperto all’interpretazione e potrebbe non sempre coprire ogni singolo aspetto dei siti web (i responsabili di Internet Archive ad esempio non lo usano ormai da diversi anni). Per questa ragione, vuole che vi siano delle regole ben precise. Ciò permetterà ai sui strumenti di indicizzare ancora meglio le pagine web, rendendo il suo motore di ricerca ancora più completo.

Viste le intenzioni di Google, non sarebbe un peccato se si volesse rimane anonimi online. Date un’occhiata alla nostra guida approfondita su come non farsi notare online.