Istruire gli Spider

Gli spider leggono le pagine del sito e utilizzano i contenuti per indicizzare correttamente la pagina.
Già nel capitolo dedicato ai Meta Tags abbiamo parlato di dare delle indicazioni allo spider prima di indicizzare le nostre pagine. Questo viene fatto attraverso la preparazione di due files: Sitemap.xml (vedi il capitolo precedente) e Robots.txt.

Il file Robots.txt

Solitamente, preferisco passare queste istruzioni non direttamente all’interno delle pagine, ma in un apposito file denominato robots.txt. Un file robots.txt limita l'accesso al tuo sito da parte dei robot dei motori di ricerca che eseguono la scansione del Web. Per l’appunto, questo file di testo è stato pensato ai motori di ricerca per facilitare, in primo luogo i suoi spider, ma anche i webmaster che desiderano particolari attenzioni di indicizzazione delle pagine dei propri siti web.
Sarà necessario un file robots.txt solo se sul tuo sito sono presenti contenuti che desideri vengano esclusi dall'indicizzazione dei motori di ricerca. Se desideri che i motori di ricerca eseguano l'indicizzazione di tutti i contenuti del tuo sito, non sarà necessario un file robots.txt (nemmeno vuoto). Per tanto, questo file ha solamente un potere inibitore per i motori di ricerca e non è usato ai fini del posizionamento.

Il file robots.txt è un semplicissimo file di testo (.txt), che viene letto da tutti i principali motori di ricerca prima di indicizzare un sito. Per cui questo file deve avere determinate caratteristiche per essere correttamente interpretato dai Robots dei motori: - Il file può avere solo questa denominazione: robots.txt
- Il robots.txt deve risiedere nella root del sito (nella cartella principale. Es. www.marketing-e-comunicazione.com/robots.txt)
- Non deve contenere tag HTML o altro testo (perché questi verranno completamente ignorati)

La sintassi corretta per le istruzioni ai Robots è questa:
User-agent: [nome spider]
Disallow: [cartella/file da escludere]

Alcuni esempi

Escludere la cartella “admin” a tutti gli spider:
User-agent: *
Disallow: /admin/
Escludere la pagina “riservato.html” a tutti gli spider:
User-agent: *
Disallow: /riservato.html

Solitamente consiglio sempre di escludere dagli indici di tutti i motori di ricerca:
- Cartelle contenenti DATABASE
- Pagine dinamiche non di contenuto
- Pagine/cartelle di amministrazione del sito
- Cartelle e pagine riservate (anche se sempre meglio bloccare l’accesso richiedendo una password)
- Documenti on-line non di divulgazione pubblica