Robots.txt: gli errori piĆ¹ comuni da evitare

Condividi questo articolo

Il file robots.txt ĆØ uno degli elementi piĆ¹ importanti per una corretta gestione del proprio sito web e della sua ottimizzazione in ottica SEO. E’ infatti una direttiva che ci consente di comunicare con gli spider dei motori di ricerca per gestire al meglio la scansione, offrire un localizzazione precisa della sitemap e limitare l’accesso a risorse che ci farebbero sprecare crawl budget.

Essere in grado di dare le giuste indicazioni ai crawler dei motori di ricerca ed evitare un uso improprio o addirittura errato di queste direttive aumenterĆ  le possibilitĆ  del nostro sito di piacere ai motori di ricerca e offire agli utenti un’esperienza d’uso completa e soddisfacente.

E’ utile quindi chiarireĀ l’utilizzo del robots.txtĀ e gli errori da evitare.

Inanzitutto ĆØ indispensabile comprendere che il file robots.txt si applica a una lista di pagine e directory che gli spider NON possono scansionare. Quindi le indicazioni che ĆØ possibile fornire agli spider riguardano solo quello non possono fare all’interno del nostro sito attraverso il comando disallow e non quello che possono fare. Se non vi ĆØ necessitĆ  di impedire ai motori di ricerca la scansione di alcune pagine del nostro sito il file il robots txt non va utilizzato.

Quanto appena detto ĆØ estremamente importante, in quanto molti degli errori nell’utilizzo del file robots.txt hanno origine dall’errata comprensione di ciĆ² che ĆØ possibile fare con essi.

Di seguito una lista di errori da evitare

1. ApplicareĀ all’url il disallow Robots.txt per evitare che appaia nei risultati di ricerca

E’ uno degli errori piĆ¹ comuni. Bloccare un Url con il disallow robots txt non impedisce l’indicizzazione. Se infatti le pagine a cui abbiamo applicato il file robots.txt ĆØ linkata da altri siti web o condivisa sui canali social i motori di ricerca potrebbero comunque indicizzarle e farle apparire in Serp senza un title e uno snippet. Quando si vuole bloccare l’indicizzazione di una o piĆ¹ pagine ĆØ molto piĆ¹ conveniente utilizzare il tag noindex. Anche in questo caso tuttavia bisogna fare attenzione poichĆØ i due comandi non vanno mai usati insieme. Se alla stessa pagina applichiamo il comando disallow robots.txt e il tag no index ci troveremo nella sconveniente situazione per cui gli spider non potranno leggere il blocco dell’indicizzazione poichĆØ ĆØ stata bloccata anche la scansione.

2. Applicare ilĀ Disallow Robots.txt per rimuovere dai risultati di ricerca pagine non piĆ¹ esistenti

Stesso situazione si puĆ² presentare se applichiamo il comando disallow robots.txt su pagine che sono state rimosse dallo nostro sito web. Impedire agli spider di scansionare la pagina infatti non evita che queste possano comunque essere indicizzate. In questo caso ĆØ molto meglio applicare lo status code 410 e permettere ai motori di ricerca di verificare che effettivamente la risorsa ĆØ stata eliminata e quindi escluderla dai risultati di ricerca.

3. Applicare il Disallow Robots.txt su una risorsa a cui abbiamo cambiato l’url

Se il file robots.txt non ci consente di de-indicizzare una pagina ĆØ un grave errore utilizzarlo su un Url con redirezioni ( status code 301 o 302 o metarefresh) poichĆØ i motori di ricerca non portanno leggere il redirect. Anche in questo caso i motori di ricerca mostrarenno in SERP il risultato di ricerca ma con l’URL sbagliato.

In generale questa regola vale in tutti quei casi in cui applichiamo alla pagina un comando che il disallow robots.txt non permette di leggere come gli status code o le meta tag o lā€™intestazione HTTP

4. Comporre file robots.txt troppo complessiĀ ed elaborati

I file robots.txt devono essere semplici e precisi. Lo standard limita la grandezza del file robots.txt a 500 kb, il testo in eccesso verrĆ  ignorato quindi ĆØ inutile complicarne la realizzazione.

5. Usare il file robots.txt per nascondere informazioni riservate

Il file robots.txt ĆØ una risorsa pubblica e accessibile a chiunque abbia un minimo di eperienza per cuiĀ ĆØ inutile utilizzarloĀ per nascondere pagine riservate o contenenti dati degli utenti. In questo caso ĆØ meglio ricorrere ad altri sistemi come la protezione mediante credenziali.

6. Usare il robots txt wordpress per bloccare la cartella wp-content

saper utilizzare il file robots txtĀ ĆØ molto importante anche per chi utilizzaĀ wordpress.Ā SolitamenteĀ il classico robots.txt per un sito WordPress ĆØ sempre stato il seguente.

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

A differenza di qualche anno fa i motori di ricerca sono in grado di leggere e interpretare anche il codice Javascript e ilĀ linguaggio CSSĀ ovvero laĀ formattazione grafica delle pagine per cui. se si impedisce lā€™accesso a cartelle di WordPress comeĀ /wp-content/Ā oppureĀ /wp-includes/Ā puĆ² succedere che Google non abbia accesso a risorse fondamentali per renderizzare correttamente la pagina. Entrambe le cartelle infatti contengono spesso tutti i file funzionali al tema utilizzato e applicare loro un robots txt troppo chiuso potrebbe essere un grave errore, anche in termini di indicizzazione.

Per modificare il mio File Robots TXT e non commettere errori utilizzo il File Editor del Plugin Premium Seo Pack di WordPress

7. Robots txt editor sbagliato

Per compilare il file robots.txt bisogna stare attenti anche alla sintassi. Lā€™URL del file Robots.txt sono case-sensitive cioĆØ fanno differenza tra lettere maiuscole e minuscole, per questo si possono generare degli errori se si chiama il file ROBOTS.TXT oppure se si scrivono al suo interno URL usando lettere maiuscole e minuscole.

8. Crawl-delay

La direttiva crawl-delay imposta il numero di secondi che i bot devono attendere prima di effettuare una nuova scansione del sito web. E’ una direttiva molto utile per prevenire il sovraccarico del server tuttavia ĆØ utile sapere che gli spider di Google ignorano questo paramentro.

E’ a questo punto molto facile intuire come un uso sbagliato del file robots txt posso farci incorrere in errori che peggiorano la user experience dei nostri utenti bloccando la scansione di risorse e pagini utili che invece dovrebbero essere completamente accessibili ai motori di ricerca.

Comprendere come usare il file robots.txt puĆ² essere uno strumento potente in otticaĀ SEOĀ perchĆ©Ā  se ben maneggiato ci consente di non sovracaricare il server e soprattutto limitare l’accesso ad aree o contenuti del nostro sito che non offrono un valore aggiunto ai nostri utenti.

Dunque fai sempre attenzione all’utilizzo che fai del robots.txt e ricorda di non esagerare, se il sito non ĆØ di enormi dimensioni usare troppo il comando disallow del robots.txt non ha senso. SE hai dubbi o vuoi condividere la tua esperienza riguardo gli errori che si commettono con il robots txt, scrivi nei commenti

Condividi questo articolo

Rispondi

Gianluca Gentile