Robots.txt: gli errori più comuni da evitare

Partager cet article

Il file robots.txt è uno degli elementi più importanti per una corretta gestione del proprio site web e della sua optimisation in ottica RÉFÉRENCEMENT. E’ infatti una direttiva che ci consente di comunicare con gli spider dei motori di ricerca per gestire al meglio la scansione, offrire un localizzazione precisa della sitemap e limitare l’accesso a risorse che ci farebbero sprecare crawl budget.

Essere in grado di dare le giuste indicazioni ai crawler dei motori di ricerca ed evitare un uso improprio o addirittura errato di queste direttive aumenterà le possibilità del nostro sito di piacere ai motori di ricerca e offire agli utenti un’esperienza d’uso completa e soddisfacente.

E’ utile quindi chiarire l’utilizzo del robots.txt e gli errori da evitare.

Inanzitutto è indispensabile comprendere che il file robots.txt si applica a una lista di pagine e directory che gli spider NON possono scansionare. Quindi le indicazioni che è possibile fornire agli spider riguardano solo quello non possono fare all’interno del nostro sito attraverso il comando disallow e non quello che possono fare. Se non vi è necessità di impedire ai motori di ricerca la scansione di alcune pagine del nostro sito il file il robots txt non va utilizzato.

Quanto appena detto è estremamente importante, in quanto molti degli errori nell’utilizzo del file robots.txt hanno origine dall’errata comprensione di ciò che è possibile fare con essi.

Di seguito una lista di errori da evitare

1. Applicare all’url il disallow Robots.txt per evitare che appaia nei risultati di ricerca

E’ uno degli errori più comuni. Bloccare un Url con il disallow robots txt non impedisce l’indicizzazione. Se infatti le pagine a cui abbiamo applicato il file robots.txt è linkata da altri siti web o condivisa sui canali social i motori di ricerca potrebbero comunque indicizzarle e farle apparire in Serp senza un title e uno snippet. Quando si vuole bloccare l’indicizzazione di una o più pagine è molto più conveniente utilizzare il tag noindex. Anche in questo caso tuttavia bisogna fare attenzione poichè i due comandi non vanno mai usati insieme. Se alla stessa pagina applichiamo il comando disallow robots.txt e il tag no index ci troveremo nella sconveniente situazione per cui gli spider non potranno leggere il blocco dell’indicizzazione poichè è stata bloccata anche la scansione.

2. Applicare il Disallow Robots.txt per rimuovere dai risultati di ricerca pagine non più esistenti

Stesso situazione si può presentare se applichiamo il comando disallow robots.txt su pagine che sono state rimosse dallo nostro sito web. Impedire agli spider di scansionare la pagina infatti non evita che queste possano comunque essere indicizzate. In questo caso è molto meglio applicare lo status code 410 e permettere ai motori di ricerca di verificare che effettivamente la risorsa è stata eliminata e quindi escluderla dai risultati di ricerca.

3. Applicare il Disallow Robots.txt su una risorsa a cui abbiamo cambiato l’url

Se il file robots.txt non ci consente di de-indicizzare una pagina è un grave errore utilizzarlo su un Url con redirezioni ( status code 301 o 302 o metarefresh) poichè i motori di ricerca non portanno leggere il redirect. Anche in questo caso i motori di ricerca mostrarenno in SERP il risultato di ricerca ma con l’URL sbagliato.

In generale questa regola vale in tutti quei casi in cui applichiamo alla pagina un comando che il disallow robots.txt non permette di leggere come gli status code o le meta tag o l’intestazione HTTP

4. Comporre file robots.txt troppo complessi ed elaborati

I file robots.txt devono essere semplici e precisi. Lo standard limita la grandezza del file robots.txt a 500 kb, il testo in eccesso verrà ignorato quindi è inutile complicarne la realizzazione.

5. Usare il file robots.txt per nascondere informazioni riservate

Il file robots.txt è una risorsa pubblica e accessibile a chiunque abbia un minimo di eperienza per cui è inutile utilizzarlo per nascondere pagine riservate o contenenti dati degli utenti. In questo caso è meglio ricorrere ad altri sistemi come la protezione mediante credenziali.

6. Usare il robots txt wordpress per bloccare la cartella wp-content

saper utilizzare il file robots txt è molto importante anche per chi utilizza wordpress. Solitamente il classico robots.txt per un sito WordPress è sempre stato il seguente.

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

A differenza di qualche anno fa i motori di ricerca sono in grado di leggere e interpretare anche il codice Javascript e il linguaggio CSS ovvero la formattazione grafica delle pagine per cui. se si impedisce l’accesso a cartelle di WordPress come /wp-content/ oppure /wp-includes/ può succedere che Google non abbia accesso a risorse fondamentali per renderizzare correttamente la pagina. Entrambe le cartelle infatti contengono spesso tutti i file funzionali al tema utilizzato e applicare loro un robots txt troppo chiuso potrebbe essere un grave errore, anche in termini di indicizzazione.

Per modificare il mio File Robots TXT e non commettere errori utilizzo il File Editor del Plugin Premium Seo Pack di WordPress

7. Robots txt editor sbagliato

Per compilare il file robots.txt bisogna stare attenti anche alla sintassi. L’URL del file Robots.txt sono case-sensitive cioè fanno differenza tra lettere maiuscole e minuscole, per questo si possono generare degli errori se si chiama il file ROBOTS.TXT oppure se si scrivono al suo interno URL usando lettere maiuscole e minuscole.

8. Crawl-delay

La direttiva crawl-delay imposta il numero di secondi che i bot devono attendere prima di effettuare una nuova scansione del sito web. E’ una direttiva molto utile per prevenire il sovraccarico del server tuttavia è utile sapere che gli spider di Google ignorano questo paramentro.

E’ a questo punto molto facile intuire come un uso sbagliato del file robots txt posso farci incorrere in errori che peggiorano la user experience dei nostri utenti bloccando la scansione di risorse e pagini utili che invece dovrebbero essere completamente accessibili ai motori di ricerca.

Comprendere come usare il file robots.txt può essere uno strumento potente in ottica RÉFÉRENCEMENT perché se ben maneggiato ci consente di non sovracaricare il server e soprattutto limitare l’accesso ad aree o contenuti del nostro sito che non offrono un valore aggiunto ai nostri utenti.

Dunque fai sempre attenzione all’utilizzo che fai del robots.txt e ricorda di non esagerare, se il sito non è di enormi dimensioni usare troppo il comando disallow del robots.txt non ha senso. SE hai dubbi o vuoi condividere la tua esperienza riguardo gli errori che si commettono con il robots txt, scrivi nei commenti

Partager cet article