Come creare un file robots.txt per disabilitare l'indicizzazione di determinate cartelle o file di un da parte degli spider
Il file robots.txt non è altro che un semplice file di testo che, caricato nella root di un sito internet, impedisce agli spider dei vari motori di ricerca di indicizzarne determinate cartelle o file.
Questo file di testo, che possiamo creare con qualsiasi editor di testi, deve seguire alcune specifiche ("Robots Exclusion Standard") per funzionare correttamente.
Purtroppo non tutti gli spider seguono le direttive del "Robots Exclusion Standard" e quindi alcuni di loro andranno comunque ad indicizzare tutti i file presenti nel nostro sito.
Ma vediamo come creare un file robots.txt.
Il contenuto del file robots.txt dove avere la seguente sintassi:
Andiamo ad analizzarlo nello specifico:
Una volta creato, il file robots.txt va posizionarto nella root del sito in modo che sia raggiungibile con il seguente indirizzo: http://www.miosito.it/robots.txt
Di seguito ecco 2 esempi di file robots.txt.
Esempio 1:In questo esempio lo spider "googlebot" non potrà indicizzare il contenuto delle cartelle /tmp/ e /document/private/ e del file /debug.php
Esempio 2:In questo esempio tutti gli spider non potranno indicizzare nessuna cartella del sito perchè è stata bloccata la root del sito (/).