Get Chitika | Premium

Top Commenters

Dite pure la vostra!

Il nostro eBook! Scaricalo!

Scarica l’eBook gratuitamente ed inizierai a bloggare in men che non si dica.
67 pagine da conservare ed usare tutte le volte che lo si vuole.

Abbonati e scarica la tua copia!
Due versioni una classica e l’altra sfogliabile come un vero e proprio libro.

La guida per chi inizia, piena di consigli e trucchi per un blogging senza compromessi.

Abbonati ai nostri RSS e troverai il link per il download in fondo ad ogni articolo.

Oppure puoi iscriverti alla nostra newsletter inserendo il tuo indirizzo email!

We take privacy seriously.
Your email address will not be shared.
Aggregatore rss

Come creare un file Robots.txt per il vostro blog o sito.

Un file robots.txt ha la responsabilità di indicare ai motori di ricerca, quali pagine del vostro sito dovranno subire il crawling e conseguentemente essere indicizzate.
Molti siti e blog, integrano diverse pagine che non interessano ai motori di ricerca, come le pagine di amministrazione e le immagini, per esempio, per questo creare un file robots.txt vi iauterà a migliorare l’indicizzazione del vostro sito.
Creare un file robots.txt è enormente semplice, e può essere fatto con il Notepad, già incluso in Windows.
Se non usate Windows, o non volete usare Notepad, vi raccomando di sperimentare il Notepad++ e la sua potenza.
Se possedete un blog in Wordpress, un semplice file robots.txt potrebbe essere qualcosa come:

User-agent: *
Disallow: /wp-
Disallow: /feed/
Disallow: /trackback/

User-agent;* è il comando che dice ai motori di ricerca (Googlem Yahoo, MSN e altri) che devono seguire le istruzioni in seguito riportate per fare il crwling del vostro sito. A meno che il vostro non sia un sito particolarmente complesso, non avrete la necessità di creare diversi robots per i diversi motori di ricerca. Keep it Simple.

Disallow:/wp- indica ai motori di non fare il crawling dei vostri files di Wordpress. Il robot eviterà tutte le directory e sotto-directory che iniziano con “wp-“, non facendo lo scanning quindi, di contenuti duplicati e di file amministrativi.

Se volete creare un file Robots.txt per il vostro blog Wordpress, vi suggerisco l’opzione creata dai colleghi di Askapache, che sanno meglio di altri, quali contenuti si devono evitare e quali sono importanti da filtrare. Nel disabilitare la directory delle immagini, non commettete nessun errore. Google fa l’inidicizzazione delle immagini attraverso i post, integrandoli sucessivamente con l’informazione unita ad ogni immagine, come il testo ALT, titolo, nome della foto, ecc..
Se possedete un blog Wordpress, suggerisco la creazione di un file robots.txt con la seguente configurazione:

User-agent:  *
# disallow all files in these directories
Disallow: /cgi-bin/
Disallow: /z/j/
Disallow: /z/c/
Disallow: /stats/
Disallow: /dh_
Disallow: /about/
Disallow: /contact/
Disallow: /tag/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /contact
Disallow: /manual
Disallow: /manual/*
Disallow: /phpmanual/
Disallow: /category/
User-agent: Googlebot
# disallow all files ending with these extensions
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$
# disallow all files with ? in url
Disallow: /*?*
# disable duggmirror
User-agent: duggmirror
Disallow: /
# allow google image bot to search all images
User-agent: Googlebot-Image
Disallow:
Allow: /*
# allow adsense bot on entire site
User-agent: Mediapartners-Google*
Disallow:
Allow: /*

Praticamente dovrete soltanto copiare, incolalre in un file Notepad e salvare con il nome Robots.txt.

Se non usate Wordpress ed avete un sito che tratta un argomento qualunque, suggerisco al creazione di un file così configurato:

User-agent: *
Disallow: /images/
Disallow: /cgi-bin/
Disallow: /any other folder to be excluded/

Disabilitate soltanto le directory non importanti. Potrete defiire voi stessi, manualmente, quali directory non fare considerare importanti al crawler di Google.
Per fare questo, basta copiare la linea Disallow:/, seguita dal nome della directory che non volete venga considerata.

Dopo aver creato il vostro file Robots.txt, dovrete farne l’upload nella vostra directory principale FTP, normalmente è dentro la directory “public_html”.
Se avete qualche dubbio lasciate pure un commento. Ne approfitto anche per chiedervi se già avevate creato, qualche volta, o sentito parlare del file Robots.txt?

Alla prossima!

Share and Enjoy:
  • RSS
  • Google Bookmarks
  • Facebook
  • FriendFeed
  • LinkedIn
  • del.icio.us
  • StumbleUpon
  • Technorati
  • Mixx
  • Wikio IT
  • Yahoo! Buzz
  • Diggita
  • Tumblr

Follow me on Twitter

  • Come faccio a far vedere solo al index del mio sito dai googlebot?
  • Ciao Valerio, cercavo un articolo sulla creazione del robots.txt per Wordpress e mi sono imbattuto in questo articolo. Mi sorge una domanda: ma la cosa migliore non sarebbe abilitare l'indicizzazione solo dei post e bloccare tutto il resto? Se la mia non è un'idea sbagliata come dovrebbe essere il contenuto del file?
    Grazie.
  • Grazie per l'attenzione Gennaro e per il tuo commento!
    In effetti ciò che fa un robots.txt è proprio quanto tu suggerisci, fa indicizzare al motore che lo legge soltanto i post di un determinato blog, lasciando fuori tutto il resto per non creare falsi duplicati!
    Un robots che potrestio usare è quello che suggerisco nell'articolo stesso, è generico ma completo nel suo insieme!
    Alla prossima!
  • Ciao valerio,
    grazie per il tuo articolo.
    Ho copiato il contenuto da te consigliato per siti in wordpress... speriamo bene... :)

    2 domande...

    Perche nel tuo sito non hai inserito questo tipo di robots?
    Nel codice che ho preso dal tuo articolo mi consigli di aggiungere il disallow per la sitemap?

    Ciao e grazie.
  • Ciao Smart...
    Dunque rispondo subito alle tue domande:
    In questo momento TechNotizieNews è in pieno travaglio, sono appena nati progetti come TechnoTweet, bookmarking, il forum e stiamo lavorando alla creazione di una web-directory; per questo motivo non ho ancora inserito il robots.txt, per qunato sarebbe possibile crearne diversi. Preferisco cmq aspettare di avere tutto pronto e stabilire successivamente cosa fare prendere in considerazione al crawler.
    Relativamente alla tua seconda domanda, la risposta è : no!
    Non devi aggiungere il disallow al sitemap, al contrario usa questa stringa

    Sitemap: http://www.example.com/sitemap.xml

    dove sostituirai ...example.com...con l'indirizzo del tuo blog

    Indicare il sitemap nel robots favorisce ancora meglio l'indicizzazione..

    Alla prossima e grazie per il commento
  • grazie per questi consigli
  • @Valerio
    molto molto interessante... però non capisco una cosa: perchè viene suggerito di escludere la cartella /images/ dalla scansione dei robots?
  • @Confronta ADSL: Le immagini sono viste differentemente dal crawler di Google; per non creare confusione e segnalazioni di errore è meglio escludere la directory dove sono appoggiate le immagini precisando questo comando nel file Robots.txt.
    Grazie della tua visita, torna presto!
  • Ciao Valerio, ok, seguirò il tuo consiglio.
    P.S.: perché mi chiami Leonardo? :-)
  • @Paolo: anche io ieri gli ho fatto notare questo piccolo errore...vedrai non capiterà più e se dovesse accadere di nuovo gli faremo scrivere un post in cui dichiara che si...bloggare stressa e come! Buon lavoro.
  • :-) Figurati, per così poco! Eheheh, ciao!
  • conosco i robots.txt perchè lavoro in ambito web, però non molto approfonditamente, e non ho mai avuto occasione di crearli io direttamente.
    Molto interessante (come sempre) leggere i tuoi post.
    Ciao
    Luca
  • Grazie Luca per il commento!
    Continua a seguirci, sarà un piacere leggerti e se puoi lasciaci un poco della tua esperienza con i robots.txt ;-)
    Alla prossima!
  • Ciao Valerio, due considerazioni:
    la prima è un consiglio: quale è l'utilità dell'inserire il robots.txt? Io ne parlerei più approfonditamente nel post.
    La seconda è una domanda: da google webmaster tools trovo diversi errori della scansione del bot di google sul mio sito e sono tutti relativi a pagine non trovate, che spesso fanno riferimento ad immagini. D'altra parte trovo spesso che sul mio sito ci sono utenti che si trovano in una pagina che punta a favicon.ico nella directory principale, file che in quella directory di fatto non c'è... Mi spiego meglio: dalle statistiche in tempo reale, trovo utenti in
    manualissimo.it/favicon.ico
    (in questo percorso quel file non c'è)... Centra in qualche misura con il fatto di indicare al bot di google di non scansionare quel percorso?
    A presto!
  • Ciao Leonardo!
    I primi paragrafi del post spiegano qualìè l'utilità di un Robots.txt e proprio il problema che tu riferisci è la dimostrazione di questa!
    Indicare ai robots appunto tramite il file in questione di non seguire la directory delle immagini evita quei piccoli problemi che tu stesso riscontri nel tuo Google Webmaster.
    Ti consiglio di creare un file Robots.txt che serva proprio a questo: alla fine non dovrai far altro che copiare l'esempio da me postato o, se prefersici, crearne uno tu anche per meglio comprendene il funzionamento.
    Alla prossima!
blog comments powered by Disqus

Articoli Consigliati