Un file robots.txt ha la responsabilità di indicare ai motori di ricerca, quali pagine del vostro sito dovranno subire il crawling e conseguentemente essere indicizzate.
Molti siti e blog, integrano diverse pagine che non interessano ai motori di ricerca, come le pagine di amministrazione e le immagini, per esempio, per questo creare un file robots.txt vi iauterà a migliorare l’indicizzazione del vostro sito.
Creare un file robots.txt è enormente semplice, e può essere fatto con il Notepad, già incluso in Windows.
Se non usate Windows, o non volete usare Notepad, vi raccomando di sperimentare il Notepad++ e la sua potenza.
Se possedete un blog in Wordpress, un semplice file robots.txt potrebbe essere qualcosa come:
User-agent: *
Disallow: /wp-
Disallow: /feed/
Disallow: /trackback/
User-agent;* è il comando che dice ai motori di ricerca (Googlem Yahoo, MSN e altri) che devono seguire le istruzioni in seguito riportate per fare il crwling del vostro sito. A meno che il vostro non sia un sito particolarmente complesso, non avrete la necessità di creare diversi robots per i diversi motori di ricerca. Keep it Simple.
Disallow:/wp- indica ai motori di non fare il crawling dei vostri files di Wordpress. Il robot eviterà tutte le directory e sotto-directory che iniziano con “wp-“, non facendo lo scanning quindi, di contenuti duplicati e di file amministrativi.
Se volete creare un file Robots.txt per il vostro blog Wordpress, vi suggerisco l’opzione creata dai colleghi di Askapache, che sanno meglio di altri, quali contenuti si devono evitare e quali sono importanti da filtrare. Nel disabilitare la directory delle immagini, non commettete nessun errore. Google fa l’inidicizzazione delle immagini attraverso i post, integrandoli sucessivamente con l’informazione unita ad ogni immagine, come il testo ALT, titolo, nome della foto, ecc..
Se possedete un blog Wordpress, suggerisco la creazione di un file robots.txt con la seguente configurazione:
User-agent: *
# disallow all files in these directories
Disallow: /cgi-bin/
Disallow: /z/j/
Disallow: /z/c/
Disallow: /stats/
Disallow: /dh_
Disallow: /about/
Disallow: /contact/
Disallow: /tag/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /contact
Disallow: /manual
Disallow: /manual/*
Disallow: /phpmanual/
Disallow: /category/
User-agent: Googlebot
# disallow all files ending with these extensions
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$
# disallow all files with ? in url
Disallow: /*?*
# disable duggmirror
User-agent: duggmirror
Disallow: /
# allow google image bot to search all images
User-agent: Googlebot-Image
Disallow:
Allow: /*
# allow adsense bot on entire site
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
Praticamente dovrete soltanto copiare, incolalre in un file Notepad e salvare con il nome Robots.txt.
Se non usate Wordpress ed avete un sito che tratta un argomento qualunque, suggerisco al creazione di un file così configurato:
User-agent: *
Disallow: /images/
Disallow: /cgi-bin/
Disallow: /any other folder to be excluded/
Disabilitate soltanto le directory non importanti. Potrete defiire voi stessi, manualmente, quali directory non fare considerare importanti al crawler di Google.
Per fare questo, basta copiare la linea Disallow:/, seguita dal nome della directory che non volete venga considerata.
Dopo aver creato il vostro file Robots.txt, dovrete farne l’upload nella vostra directory principale FTP, normalmente è dentro la directory “public_html”.
Se avete qualche dubbio lasciate pure un commento. Ne approfitto anche per chiedervi se già avevate creato, qualche volta, o sentito parlare del file Robots.txt?
Alla prossima!



