{"id":18756,"date":"2019-08-01T08:13:35","date_gmt":"2019-08-01T06:13:35","guid":{"rendered":"https:\/\/gianlucagentile.com\/?p=18756"},"modified":"2024-12-26T07:15:05","modified_gmt":"2024-12-26T06:15:05","slug":"robots-txt-gli-errori-piu-comuni-da-evitare","status":"publish","type":"post","link":"https:\/\/gianlucagentile.com\/blog\/robots-txt-gli-errori-piu-comuni-da-evitare\/","title":{"rendered":"Robots.txt: gli errori pi\u00f9 comuni da evitare"},"content":{"rendered":"<p>Il file robots.txt \u00e8 uno degli elementi pi\u00f9 importanti per una corretta gestione del proprio sito web e della sua ottimizzazione in ottica SEO. E&#8217; infatti una direttiva che ci consente di comunicare con gli spider dei motori di ricerca per gestire al meglio la scansione, offrire un localizzazione precisa della sitemap e limitare l&#8217;accesso a risorse che ci farebbero sprecare crawl budget.<\/p>\n<p>Essere in grado di dare le giuste indicazioni ai crawler dei motori di ricerca ed evitare un uso improprio o addirittura errato di queste direttive aumenter\u00e0 le possibilit\u00e0 del nostro sito di piacere ai motori di ricerca e offire agli utenti un&#8217;esperienza d&#8217;uso completa e soddisfacente.<\/p>\n<p>E&#8217; utile quindi chiarire\u00a0<a href=\"https:\/\/gianlucagentile.com\/robots-txt-e-meta-tag-noindex-nofollow-qual-e-la-differenza\/\" target=\"_blank\" rel=\"noopener noreferrer\">l&#8217;utilizzo del robots.txt<\/a>\u00a0e gli errori da evitare.<\/p>\n<p>Inanzitutto \u00e8 indispensabile comprendere che il file robots.txt si applica a una lista di pagine e directory che gli spider NON possono scansionare. Quindi le indicazioni che \u00e8 possibile fornire agli spider riguardano solo quello non possono fare all&#8217;interno del nostro sito attraverso il comando disallow e non quello che possono fare. Se non vi \u00e8 necessit\u00e0 di impedire ai motori di ricerca la scansione di alcune pagine del nostro sito il file il robots txt non va utilizzato.<\/p>\n<p>Quanto appena detto \u00e8 estremamente importante, in quanto molti degli errori nell&#8217;utilizzo del file robots.txt hanno origine dall&#8217;errata comprensione di ci\u00f2 che \u00e8 possibile fare con essi.<\/p>\n<p>Di seguito una lista di errori da evitare<\/p>\n<h2><strong>1. Applicare\u00a0all&#8217;url il disallow Robots.txt per evitare che appaia nei risultati di ricerca<\/strong><\/h2>\n<p>E&#8217; uno degli errori pi\u00f9 comuni. Bloccare un Url con il disallow robots txt non impedisce l&#8217;indicizzazione. Se infatti le pagine a cui abbiamo applicato il file robots.txt \u00e8 linkata da altri siti web o condivisa sui canali social i motori di ricerca potrebbero comunque indicizzarle e farle apparire in Serp senza un title e uno snippet. Quando si vuole bloccare l&#8217;indicizzazione di una o pi\u00f9 pagine \u00e8 molto pi\u00f9 conveniente utilizzare il tag noindex. Anche in questo caso tuttavia bisogna fare attenzione poich\u00e9 i due comandi non vanno mai usati insieme. Se alla stessa pagina applichiamo il comando disallow robots.txt e il tag no index ci troveremo nella sconveniente situazione per cui gli spider non potranno leggere il blocco dell&#8217;indicizzazione poich\u00e9 \u00e8 stata bloccata anche la scansione.<\/p>\n<h2>2. Applicare il\u00a0Disallow Robots.txt per rimuovere dai risultati di ricerca pagine non pi\u00f9 esistenti<\/h2>\n<p>Stesso situazione si pu\u00f2 presentare se applichiamo il comando disallow robots.txt su pagine che sono state rimosse dallo nostro sito web. Impedire agli spider di scansionare la pagina infatti non evita che queste possano comunque essere indicizzate. In questo caso \u00e8 molto meglio applicare lo status code 410 e permettere ai motori di ricerca di verificare che effettivamente la risorsa \u00e8 stata eliminata e quindi escluderla dai risultati di ricerca.<\/p>\n<h2>3. Applicare il Disallow Robots.txt su una risorsa a cui abbiamo cambiato l&#8217;url<\/h2>\n<p>Se il file robots.txt non ci consente di de-indicizzare una pagina \u00e8 un grave errore utilizzarlo su un Url con redirezioni ( status code 301 o 302 o metarefresh) poich\u00e9 i motori di ricerca non portanno leggere il redirect. Anche in questo caso i motori di ricerca mostrarenno in SERP il risultato di ricerca ma con l&#8217;URL sbagliato.<\/p>\n<p>In generale questa regola vale in tutti quei casi in cui applichiamo alla pagina un comando che il disallow robots.txt non permette di leggere come gli status code o le meta tag o l\u2019intestazione HTTP<\/p>\n<h2>4. Comporre file robots.txt troppo complessi\u00a0ed elaborati<\/h2>\n<p>I file robots.txt devono essere semplici e precisi. Lo standard limita la grandezza del file robots.txt a 500 kb, il testo in eccesso verr\u00e0 ignorato quindi \u00e8 inutile complicarne la realizzazione.<\/p>\n<h2>5. Usare il file robots.txt per nascondere informazioni riservate<\/h2>\n<p>Il file robots.txt \u00e8 una risorsa pubblica e accessibile a chiunque abbia un minimo di eperienza per cui\u00a0\u00e8 inutile utilizzarlo\u00a0per nascondere pagine riservate o contenenti dati degli utenti. In questo caso \u00e8 meglio ricorrere ad altri sistemi come la protezione mediante credenziali.<\/p>\n<h2><strong>6. Usare il robots txt wordpress per bloccare la cartella wp-content<\/strong><\/h2>\n<p><strong>saper utilizzare il file robots txt<\/strong>\u00a0\u00e8 molto importante anche per chi utilizza\u00a0<strong>wordpress.<\/strong>\u00a0Solitamente<strong>\u00a0i<\/strong>l classico robots.txt per un sito WordPress \u00e8 sempre stato il seguente.<\/p>\n<div>\n<div class=\"syntaxhighlighter nogutter plain\">\n<table border=\"0\" cellspacing=\"0\" cellpadding=\"0\">\n<tbody>\n<tr>\n<td class=\"code\">\n<div class=\"container\">\n<div class=\"line number1 index0 alt2\"><code class=\"plain\">User-agent: *<\/code><\/div>\n<div class=\"line number2 index1 alt1\"><code class=\"plain\">Disallow: \/wp-admin\/<\/code><\/div>\n<div class=\"line number3 index2 alt2\"><code class=\"plain\">Disallow: \/wp-includes\/<\/code><\/div>\n<\/div>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<\/div>\n<\/div>\n<p>A differenza di qualche anno fa i motori di ricerca sono in grado di leggere e interpretare anche il codice Javascript e il\u00a0linguaggio CSS\u00a0ovvero la\u00a0formattazione grafica delle pagine per cui. se si impedisce l\u2019accesso a cartelle di WordPress come\u00a0<strong>\/wp-content\/<\/strong>\u00a0oppure\u00a0<strong>\/wp-includes\/<\/strong>\u00a0pu\u00f2 succedere che Google non abbia accesso a risorse fondamentali per renderizzare correttamente la pagina. Entrambe le cartelle infatti contengono spesso tutti i file funzionali al tema utilizzato e applicare loro un robots txt troppo chiuso potrebbe essere un grave errore, anche in termini di indicizzazione.<\/p>\n<figure id=\"attachment_18760\" aria-describedby=\"caption-attachment-18760\" style=\"width: 1603px\" class=\"wp-caption aligncenter\"><img decoding=\"async\" class=\"size-full wp-image-18760\" src=\"https:\/\/gianlucagentile.com\/wp-content\/uploads\/2019\/08\/Per-modificare-il-mio-File-Robots-TXT-e-non-commettere-errori-utilizzo-il-File-Editor-del-Plugin-Premium-Seo-Pack-di-Wordpress.webp\" alt=\"\" width=\"1603\" height=\"778\" srcset=\"https:\/\/gianlucagentile.com\/blog\/wp-content\/uploads\/2019\/08\/Per-modificare-il-mio-File-Robots-TXT-e-non-commettere-errori-utilizzo-il-File-Editor-del-Plugin-Premium-Seo-Pack-di-Wordpress.webp 1603w, https:\/\/gianlucagentile.com\/blog\/wp-content\/uploads\/2019\/08\/Per-modificare-il-mio-File-Robots-TXT-e-non-commettere-errori-utilizzo-il-File-Editor-del-Plugin-Premium-Seo-Pack-di-Wordpress-300x146.webp 300w, https:\/\/gianlucagentile.com\/blog\/wp-content\/uploads\/2019\/08\/Per-modificare-il-mio-File-Robots-TXT-e-non-commettere-errori-utilizzo-il-File-Editor-del-Plugin-Premium-Seo-Pack-di-Wordpress-1024x497.webp 1024w, https:\/\/gianlucagentile.com\/blog\/wp-content\/uploads\/2019\/08\/Per-modificare-il-mio-File-Robots-TXT-e-non-commettere-errori-utilizzo-il-File-Editor-del-Plugin-Premium-Seo-Pack-di-Wordpress-768x373.webp 768w, https:\/\/gianlucagentile.com\/blog\/wp-content\/uploads\/2019\/08\/Per-modificare-il-mio-File-Robots-TXT-e-non-commettere-errori-utilizzo-il-File-Editor-del-Plugin-Premium-Seo-Pack-di-Wordpress-1536x745.webp 1536w, https:\/\/gianlucagentile.com\/blog\/wp-content\/uploads\/2019\/08\/Per-modificare-il-mio-File-Robots-TXT-e-non-commettere-errori-utilizzo-il-File-Editor-del-Plugin-Premium-Seo-Pack-di-Wordpress-260x126.webp 260w, https:\/\/gianlucagentile.com\/blog\/wp-content\/uploads\/2019\/08\/Per-modificare-il-mio-File-Robots-TXT-e-non-commettere-errori-utilizzo-il-File-Editor-del-Plugin-Premium-Seo-Pack-di-Wordpress-50x24.webp 50w, https:\/\/gianlucagentile.com\/blog\/wp-content\/uploads\/2019\/08\/Per-modificare-il-mio-File-Robots-TXT-e-non-commettere-errori-utilizzo-il-File-Editor-del-Plugin-Premium-Seo-Pack-di-Wordpress-150x73.webp 150w, https:\/\/gianlucagentile.com\/blog\/wp-content\/uploads\/2019\/08\/Per-modificare-il-mio-File-Robots-TXT-e-non-commettere-errori-utilizzo-il-File-Editor-del-Plugin-Premium-Seo-Pack-di-Wordpress-600x291.webp 600w\" sizes=\"(max-width: 1603px) 100vw, 1603px\" \/><figcaption id=\"caption-attachment-18760\" class=\"wp-caption-text\">Per modificare il mio File Robots TXT e non commettere errori utilizzo il File Editor del Plugin Premium Seo Pack di WordPress<\/figcaption><\/figure>\n<h2>7. Robots txt editor sbagliato<\/h2>\n<p>Per compilare il file robots.txt bisogna stare attenti anche alla sintassi. L\u2019URL del file Robots.txt sono case-sensitive cio\u00e8 fanno differenza tra lettere maiuscole e minuscole, per questo si possono generare degli errori se si chiama il file ROBOTS.TXT oppure se si scrivono al suo interno URL usando lettere maiuscole e minuscole.<\/p>\n<h2>8. Crawl-delay<\/h2>\n<p>La direttiva crawl-delay imposta il numero di secondi che i bot devono attendere prima di effettuare una nuova scansione del sito web. E&#8217; una direttiva molto utile per prevenire il sovraccarico del server tuttavia \u00e8 utile sapere che gli spider di Google ignorano questo paramentro.<\/p>\n<p>E&#8217; a questo punto molto facile intuire come un uso sbagliato del file robots txt posso farci incorrere in errori che peggiorano la user experience dei nostri utenti bloccando la scansione di risorse e pagini utili che invece dovrebbero essere completamente accessibili ai motori di ricerca.<\/p>\n<p>Comprendere come usare il file robots.txt pu\u00f2 essere uno strumento potente in ottica<strong>\u00a0SEO<\/strong>\u00a0perch\u00e9\u00a0 se ben maneggiato ci consente di non sovracaricare il server e soprattutto limitare l&#8217;accesso ad aree o contenuti del nostro sito che non offrono un valore aggiunto ai nostri utenti.<\/p>\n<p>Dunque fai sempre attenzione all&#8217;utilizzo che fai del robots.txt e ricorda di non esagerare, se il sito non \u00e8 di enormi dimensioni usare troppo il comando disallow del robots.txt non ha senso. SE hai dubbi o vuoi condividere la tua esperienza riguardo gli errori che si commettono con il robots txt, scrivi nei commenti<\/p>\n<p><!-- Articoli correlati - SEO internal linking --><\/p>\n<div class=\"related-posts-seo\" style=\"margin-top:30px; padding:20px; background:#f5f5f5; border-radius:8px;\">\n<h3 style=\"margin-top:0;\">Potrebbe interessarti anche:<\/h3>\n<ul style=\"margin-bottom:0;\">\n<li><a href=\"https:\/\/gianlucagentile.com\/blog\/come-migliorare-un-sito-web\/\">Come migliorare un sito web con i plug-in SEO<\/a><\/li>\n<li><a href=\"https:\/\/gianlucagentile.com\/blog\/lunghezza-titoli-delle-pagine\/\">Lunghezza titoli delle pagine migliorata da Google<\/a><\/li>\n<li><a href=\"https:\/\/gianlucagentile.com\/blog\/approccio-mobile-first-cose-e-perche-e-fondamentale-per-seo-ed-esperienza-utente\/\">Approccio Mobile-First: Cos\u2019\u00e8 e perch\u00e9 \u00e8 fondamentale per SEO ed esperienza utente<\/a><\/li>\n<\/ul>\n<\/div>\n","protected":false},"excerpt":{"rendered":"<p>Il file robots.txt \u00e8 uno degli elementi pi\u00f9 importanti per una corretta gestione del proprio sito web e della sua ottimizzazione in ottica SEO. E&#8217;&#8230;<\/p>\n","protected":false},"author":1,"featured_media":18758,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_seopress_robots_primary_cat":"","_seopress_titles_title":"Robots.txt: gli errori pi\u00f9 comuni da evitare","_seopress_titles_desc":"Il file robots.txt \u00e8 uno degli elementi pi\u00f9 importanti per una corretta gestione del proprio sito web e della sua ottimizzazione in ottica SEO. E' inf...","_seopress_robots_index":"","footnotes":""},"categories":[66],"tags":[5626,5628,1394,1382,5474,3608,1374],"class_list":{"0":"post-18756","1":"post","2":"type-post","3":"status-publish","4":"format-standard","5":"has-post-thumbnail","7":"category-seo","8":"tag-ai","9":"tag-app","10":"tag-google","11":"tag-hosting","12":"tag-mobile","13":"tag-seo","14":"tag-wordpress"},"_links":{"self":[{"href":"https:\/\/gianlucagentile.com\/blog\/wp-json\/wp\/v2\/posts\/18756","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/gianlucagentile.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/gianlucagentile.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/gianlucagentile.com\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/gianlucagentile.com\/blog\/wp-json\/wp\/v2\/comments?post=18756"}],"version-history":[{"count":0,"href":"https:\/\/gianlucagentile.com\/blog\/wp-json\/wp\/v2\/posts\/18756\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/gianlucagentile.com\/blog\/wp-json\/wp\/v2\/media\/18758"}],"wp:attachment":[{"href":"https:\/\/gianlucagentile.com\/blog\/wp-json\/wp\/v2\/media?parent=18756"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/gianlucagentile.com\/blog\/wp-json\/wp\/v2\/categories?post=18756"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/gianlucagentile.com\/blog\/wp-json\/wp\/v2\/tags?post=18756"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}