Ti svelo come Google indicizza i siti
/Quando ti parlo di come Google indicizza i siti, in realtà non vorrei parlarti tanto del processo di indicizzazione dei documenti web, cioè, un po’ sì, piuttosto però vorrei concentrarmi principalmente su come e perché migliorare il processo di scansione delle pagine web da parte dei software di crawling o bot di Google. Per capirci qualcosa è tuttavia importante capire la differenza tra scansione e assorbimento di nuovi (o vecchi) contenuti. Prima di questo però, facciamo un passo indietro e ricordiamoci un aspetto importante.
Differenza tra Robots.txt e Meta Robots
I crawler di Google scansionano ogni giorno decine di miliardi di centinaia di coppie (di ventine) di pagine web, insomma una tonnellata di documenti raggiungibili perché da qualche parte esiste un link a queste risorse e le stesse non vengono inibite tramite file robots.txt. Attenzione, il meta robots con la scansione non c’entra, perché il contenuto bloccato da meta robots non viene indicizzato, ma viene comunque per lungo tempo scansionato. Questo dettaglio che può sembrarti banale, in realtà è importantissimo perché Google continua a spendere risorse di scansione sottraendole al crawling budget destinato al tuo sito web. Conoscere questo dettaglio può aiutarti a indirizzare meglio la scansione, soprattutto considerando che Google è un colosso con risorse enormi, ma non illimitate. Insomma, ogni anno nel mondo vengono scansionate milioni di pagine inutili.
Blocchiamo questo processo (Campagna per la sensibilizzazione all’uso del file robots.txt).
Cos’ è la scansione dei contenuti web?
La scansione è un processo molto più frequente di quanto si possa pensare. I crawler di Google passano molto spesso sulle pagine dei nostri siti web. Se vuoi conoscere la frequenza di scansione relativa alle pagine del tuo sito è sufficiente che visiti il tuo account Search Console, alla voce Scansione — Statistiche di scansione. Qui puoi vedere il grafico del numero di Kb scaricati e delle pagine sottoposte a scansione ogni giorno. Come noterai questo numero è spesso molto alto, proprio perché per Google è importante tentare di capire cosa si muove sul tuo sito, con che frequenza e con quali risultati. Sì, siamo sotto osservazione continua!
Assorbimento dei contenuti
Un contenuto scansionato viene assorbito la prima volta o riassorbito in caso fosse già indicizzato. Periodicamente Google aggiorna la sua copia cache per tutte le pagine del tuo sito web, allo scopo di registrare tanto i nuovi contenuti quanto le modifiche su quelli vecchi.
Fermiamoci un secondo: l’assorbimento con relativa creazione di una copia cache, non ha la stessa frequenza per tutte le pagine del tuo sito web, ti sei mai chiesto come mai? Beh, alcune pagine hanno un recache più frequente perché per Google sono più rilevanti rispetto al progetto web. Ecco, il senso della SEO è (decidere e) fare in modo che Google capisca quali contenuti devono essere assorbiti più frequentemente. Questi contenuti sono solitamente quelli più superficiali e prominenti, oltre che quelli che ricevono il maggior numero di link interni. Sono quei contenuti messi in primo piano dalla struttura stessa del sito web.
Come Google indicizza i siti: il processo di indicizzazione
Il contenuto assorbito finisce negli indici di Google, vale a dire che viene classificato in base all’argomento di cui parla, all’autorevolezza con cui ne parla e alla rilevanza con cui ne parla rispetto alle intenzioni di ricerca degli utenti. Il ranking di un documento web viene attribuito in prima battuta proprio a seguito della fase di indicizzazione, quando cioè il contenuto viene assorbito negli indici di Google.
Come posso aumentare la frequenza di scansione per i miei contenuti?
Avere una buona frequenza di scansione è importante, perché intanto è un segnale del fatto che il sito è ben visto da Google. Un sito web con una buona frequenza di scansione generale ha anche un arma in più per ottenere migliori posizionamenti, perché un crawling più reattivo riesce subito a cogliere le novità e a valutarle velocemente. Tutto dipende fondamentalmente dalla pulizia del codice (una pagina pesante impiega più risorse, quindi più tempo), dalla qualità del server, dalla popolarità del sito web e dalla frequenza degli aggiornamenti. Ad esempio, la homepage del sito di Repubblica avrà una frequenza di riassorbimento molto alta, perché è popolare e viene aggiornata continuamente, viceversa, la home di un sito statico destrutturato e povero di risorse, interesserà poco tanto agli utenti quanto ai motori di ricerca.
Conclusioni
Concludo questo pezzo su come Google indicizza i siti web consigliandoti di aggiornare spesso i tuoi contenuti: ci sono mille modi per farlo. Il web è in continuo movimento e tu non puoi affrontarlo con un progetto web monolitico. Ricordati sempre che tutto ciò che non si sviluppa, sta già morendo.
Francesco Margherita
Ultimi articoli di Francesco Margherita (vedi tutti)
- Come fare SEO sul sito della tua Web Agency - 30 ottobre 2017
- Le intenzioni di ricerca sono più importanti delle parole chiave - 16 marzo 2017
- Cosa accidenti è la semantica applicata alla SEO - 28 marzo 2016
Libri scritti da Francesco Margherita