dalla seo alla cbo: il crawling budget optimization
TRANSCRIPT
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect1/67
Dalla SEO alla CBOIl Crawling Budget Optimization
di Martino Mosna
Basi, metodo, strumenti e pasticci vari.
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect2/67
● Specialista SEO dal 2006
● Freelance dal 2011
● Ha imparato a parlare con le persone
● Ha imparato a parlare con le macchine
Chi vi parla: Martino MosnaChi vi parla: Martino Mosna
Basi metodologiche
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect4/67
Il Crawling
Scheduler
Crawling
Archiviazione
Indicizzazione
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect5/67
Perché “budget”?
Fonte: http://www.google.com/about/datacenters/gallery/#/tech/2
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect6/67
Perché “budget”?
http://www.google.com/insidesearch/howsearchworks/thestory/
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect7/67
Perché “budget”?
INTERNET
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect8/67
Perché “budget”?
INTERNET Le risorsedi Google
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect9/67
Perché “budget”?
INTERNET
Il nostro sito
Le risorsedi Google
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect10/67
Perché ottimizzare?
● Non è solo un problema dei Crawler● Si arriva più velocemente in SERP● Si riduce la cannibalizzazione delle
query● Il link graph interno è calcolato meglio● Siamo SEO o quaqquaraquà?
robots.txt
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect12/67
robots.txt: a cosa serve
● È un file di testo accessibile da un client
● Regola l'accesso alle risorse
● Non impedisce ai motori di mostrare la risorsa in SERP
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect13/67
robots.txt: sintassi standard
User-agent:● Serve per indicare a
quale crawler sono dirette le istruzioni
● Può essere indirizzato a tutti i crawler, utilizzando *
Disallow:● Indica ai crawler di non
effettuare l'accesso alle risorse
● Possono essere pagine o intere cartelle
● Inserendo la cartella radice “/” si esclude tutto il sito
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect14/67
robots.txt: sintassi non standard
Allow:● Serve per fare delle eccezioni
alla regola
Crawl-delay:● Non è rispettato da Google
Segnaposto:● * per indicare qualsiasi carattere
● $ per indicare il termine dell'URL
Sitemap:● Indica la posizione della
sitemap XML
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect15/67
robots.txt: sintassi non documentata
Noarchive e nosnippet:Google sembra interpretarli esattamente come la corrispondente istruzione meta robots
Noindex:Google sembra interpretarlo come “Disallow”
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect16/67
robots.txt: sintassi non documentata
Noarchive e nosnippet:Google sembra interpretarli esattamente come la corrispondente istruzione meta robots
Noindex:Google sembra interpretarlo come “Disallow”
DON'T TRY THIS AT WORK
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect17/67
DICE IL SAGGIO...
NEL ROBOTS.TXTIL NOINDEX NON USAREO POTRESTI FARTI MALE
meta robots
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect19/67
meta robots: a cosa serve
● È un'istruzione di markup HTML
● A determinare se e come una pagina deve apparire nei risultati di ricerca
● Per escludere dal link graph tutti i link che contiene
<meta name=”robots” content=”noindex,follow”>
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect20/67
meta robots: index/noindex
● L'istruzione “index” è default● L'istruzione “noindex” viene eseguita
come “non mostrare in SERP”
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect21/67
meta robots: follow/nofollow
● L'istruzione “follow” è default● L'istruzione “nofollow” indica al
motore di ricerca di ignorare qualunque link presente in pagina
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect22/67
meta robots: altri valori
noodp:● Indica di non mostrare la
descrizione di ODP/DMOZ
nosnippet:● Indica di non mostrare alcuna
snippet in SERP
● Non viene mostrata alcuna cache in SERP
none:● Equivale a “noindex, nofollow”
noarchive:● Indica di non mostrare alcuna
cache in SERP
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect23/67
meta robots: altri valori /2
notranslate:● Non proporre la traduzione
della pagina nei risultati di ricerca.
noimageindex:● Non indicizzare le immagini
in questa pagina.
unavailable_after:● Non mostrare questa pagina
nei risultati di ricerca dopo la data/l'ora specificata
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect24/67
meta robots: attenzione a...
● Il Crawler deve poter accedere alla risorsa per leggerlo. Non bloccare con robots.txt!
● Il Crawler continuerà a scaricare e archiviare la pagina anche in presenza si un'istruzione noindex
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect25/67
DICE IL SAGGIO...
TU DICI NOINDEXIO CAPISCO NOVEDI
Header HTTP X-Robots-Tag
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect27/67
X-Robots-Tag: a cosa serve
● È un'istruzione degli header HTTP della risorsa
● È in tutto equivalente all'istruzione meta robots
HTTP/1.1 200 OKDate: Tue, 25 May 2010 21:42:43 GMTX-Robots-Tag: noarchiveX-Robots-Tag: unavailable_after: 25 Jun 2010 15:00:00 PST(…)
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect28/67
X-Robots-Tag: differenze
Perché usarli al posto dei meta?
● Possono essere utilizzati anche per documenti non HTML (es: PDF, immagini)
● Nel caso in cui si abbia accesso alle configurazioni del server, ma non sia possibile modificare i template di pagina
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect29/67
DICE IL SAGGIO...
NON DI SOLI METATAGVIVONO I CRAWLER
Header HTTP status code
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect31/67
HTTP status code: a cosa serve
● È in assoluto la prima informazione sullo stato della pagina
● È al cuore del funzionamento della dinamica client/server
● Puoi gestirli bene o male, ma non si possono non usare
HTTP/1.1 200 OKDate: Tue, 25 May 2010 21:42:43 GMT(…)
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect32/67
HTTP status code: 200 (found)
Cosa vuol direIl server possiede la risorsa richiesta
Come si comporta GoogleIn assenza di blocchi o limitazioni (robots.txt, meta robots, etc), scansiona la pagina, la archivia, la indicizza e la mostra in SERP
Utilizzo tipicoE' lo status code della stragrande maggioranza delle pagine di un sito web.
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect33/67
HTTP status code: 404 (not found)
Cosa vuol direIl server non possiede la risorsa richiesta
Come si comporta GoogleNon scansiona la pagina. Se la stessa risorsa in precedenza restituiva un codice 200, la rimuove dalla SERP.
Utilizzo tipicoURL errato o pagina rimossa dal sito
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect34/67
HTTP status code: 410 (gone)
Cosa vuol direIl server possedeva la risorsa, ma questa è stata deliberatamente rimossa.
Come si comporta GoogleNon scansiona la pagina. Se la stessa risorsa in precedenza restituiva un codice 200, la rimuove dalla SERP.
Utilizzo tipicoPagina rimossa dal sito.
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect35/67
HTTP status code: 403 (forbidden)
Cosa vuol direIl server non permette l'accesso alla risorsa
Come si comporta GoogleNon scansiona la pagina. Se la stessa risorsa in precedenza restituiva un codice 200, la rimuove dalla SERP.
Utilizzo tipicoDirectory listing bloccato
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect36/67
HTTP status code: 301 (permanent redirect)
Cosa vuol direLa risorsa redirige in modo permanente ad una seconda risorsa.
Come si comporta GoogleL'URL di destinazione viene inserito nello scheduler (la priorità può dipendere da molti fattori). Se la stessa risorsa in precedenza restituiva un codice 200, aggiorna i risultati della SERP con la nuova.
Utilizzo tipicoCambio URL di una pagina
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect37/67
HTTP status code: 302 (temporary redirect)
Cosa vuol direLa risorsa redirige in modo temporaneo ad una seconda risorsa.
Come si comporta GoogleL'URL di destinazione viene inserito nello scheduler (la priorità può dipendere da molti fattori). Se la stessa risorsa in precedenza restituiva un codice 200, i risultati della SERP solitamente mantengono la pagina precedente.
Utilizzo tipicoCambio di URL di una pagina
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect38/67
HTTP status code: 503 (service unavailable)
Cosa vuol direLa risorsa non è temporaneamente disponibile.
Come si comporta GoogleNon scansiona la pagina. La priorità di crawling non cambia, quando il crawler trova nuovamente un codice 200, ritorna a scansionare. La pagina non viene rimossa dalla SERP (per un po').
Utilizzo tipicoSito o pagina in manutenzione
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect39/67
HTTP status code: 500 (server error)
Cosa vuol direIl server ha incontrato un errore nel fornire la risorsa.
Come si comporta GoogleNon scansiona la pagina. La priorità di crawling non cambia, ma il perdurare dell'errore può causare la rimozione della stessa dalla SERP.
Utilizzo tipicoErrore non voluto, da risolvere
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect40/67
DICE IL SAGGIO...
410, 404SEMPRE MORTA PAGINA È
rel canonical
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect42/67
rel canonical: a cosa serve
● Ad indicare la versione canonica di una risorsa (se non è possibile fare redirect)
● Tipicamente è un'istruzione di markup HTML
● Può essere inserito negli header HTTP
<link rel=”canonical” href=”http://www.esempio.com/pagina”>
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect43/67
rel canonical: attenzione a...
● Il Crawler deve poter accedere alla risorsa per leggerlo. Non bloccare con robots.txt!
● Può facilmente andare in conflitto con altre istruzioni, ad esempio:
• paginazione
• meta robots nofollow
• meta robots noindex● In caso di istruzioni contrastanti, viene tipicamente
ignorato
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect44/67
rel canonical: benefici
● Permette di trasferire l'autorità di pagina anche senza fare il redirect 301
● Riduce il carico del server riducendo il crawling delle URL non canoniche (duplicate)
● Risparmia crawling budget per la scansione di nuove risorse o l'aggiornamento di quelle canoniche
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect45/67
DICE IL SAGGIO...
NON INCROCIARE I FLUSSIDEL REL CANONICAL
rel next-prev
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect47/67
rel next/prev: a cosa serve
● Ad indicare una struttura a paginazione
● Tipicamente è un'istruzione di markup HTML
● Può essere inserito negli header HTTP (non documentato)
<link rel=”next” href=”http://www.esempio.com/pagina/4”><link rel=”prev” href=”http://www.esempio.com/pagina/2”>
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect48/67
rel next/prev: benefici
● Facilita l'URL discovery
● Velocizza la comprensione del link graph interno
● Consolida i backlink alle pagine interne orientandoli alla pagina principale
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect49/67
rel next/prev: attenzione a...
● Il Crawler deve poter accedere alla risorsa per leggerlo. Non bloccare con robots.txt!
● Può facilmente andare in conflitto con altre istruzioni (ad esempio: rel canonical ad una versione non paginata)
● In caso di istruzioni contrastanti, viene tipicamente ignorato
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect50/67
DICE IL SAGGIO...
L'UNIONE DELLE PAGINEFA LA FORZA
rel alternate hreflang
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect52/67
rel alternate hreflang: a cosa serve
● Ad indicare le traduzioni di una risorsa
● Tipicamente è un'istruzione di markup HTML
● Può essere inserito negli header HTTP
<link rel=”alternate” hreflang=”en-us” href=”http://www.esempio.com/”><link rel=”alternate” hreflang=”en-uk” href=”http://www.esempio.com/uk/”><link rel=”alternate” hreflang=”en-au” href=”http://www.esempio.com/au/”>
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect53/67
rel alternate hreflang: benefici
● Facilita enormemente l'URL discovery
● Velocizza drasticamente l'indicizzazione
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect54/67
rel hreflang: attenzione a...
● Ci sono istruzioni specifiche per l'homepage di default
● Le istruzioni hreflang devono essere reciproche
● Le URL mappate devono essere quelle canoniche
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect55/67
DICE IL SAGGIO...
CHE NON BISOGNAINCROCIARE I FLUSSIDEL REL CANONICALL'HO GIÀ DETTO?
sitemap.xml
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect57/67
sitemap.xml: a cosa serve
● Ad elencare tutte le URL che si desidera vengano scansionate
● E' un file di testo in formato XML
● Può essere generata dinamicamente
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect58/67
sitemap.xml: benefici
● Facilita enormemente l'URL discovery
● Velocizza drasticamente l'indicizzazione
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect59/67
sitemap.xml: attenzione a...
● Inserire solo le URL canoniche
● Inserire solo URL con HTTP status 200
● Le istruzioni lastmod, changefreq e priority vengono tipicamente ignorate
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect60/67
DICE IL SAGGIO...
DACCI DEGLI URLTANTI URLBUONI URL
rel nofollow
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect62/67
rel nofollow: a cosa serve
● Ad indicare di non considerare un singolo URL come parte del link graph
● Nasce come istruzione per gestire i link non affidabili (ad esempio, se generati dagli utenti)
● Tipicamente si usa per i link artificiali
● Google non scansiona le risorse con rel nofollow, a meno che non siano linkate da qualche altra parte
<a rel=”nofollow” href=”http://www.esempio.com”>Testo</a>
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect63/67
rel nofollow: attenzione a...
● Può aiutare ad isolare una sezione del sito dal crawling, ma…
● E' un'istruzione frammentata per natura, la manutenzione può essere molto onerosa
● Non nasce come strumento per il controllo del crawling
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect64/67
DICE IL SAGGIO...
SE HAI CHIODO, USA MARTELLOSE HAI ROTTO, USA COLLASE HAI LINKETTO, USA NOFOLLOW
bibliografia
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect66/67
Robots.txthttp://tools.seobook.com/robots-txt/http://abertram.com/technical-seo/nosnippet-and-noarchive-inside-robots-txt/http://seoblog.giorgiotave.it/lindicizzazione-google-robots-txt/3870
Meta robots e X-Robots-Taghttp://googlewebmastercentral.blogspot.it/2007/03/using-robots-meta-tag.htmlhttps://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag
Header HTTPhttp://searchenginewatch.com/sew/news/2334932/ecommerce-seo-tips-for-unavailable-products-from-googles-matt-cuttshttp://searchenginewatch.com/sew/how-to/2340728/matt-cutts-on-how-google-handles-404-410-status-codeshttp://googlewebmastercentral.blogspot.it/2011/01/how-to-deal-with-planned-site-downtime.html
Rel canonicalhttp://www.engeene.it/5-errori-comuni-con-il-relcanonical/https://ignitevisibility.com/rel-canonical-and-no-index-no-follow-on-same-page-google-seo/http://googlewebmastercentral.blogspot.it/2011/06/supporting-relcanonical-http-headers.htmlhttp://googlewebmastercentral.blogspot.it/2011/09/view-all-in-search-results.htmlhttp://dejanseo.com.au/noindex-competitors/
Rel next/prevhttp://googlewebmastercentral.blogspot.it/2011/09/pagination-with-relnext-and-relprev.htmlhttp://googlewebmastercentral.blogspot.it/2012/03/video-about-pagination-with-relnext-and.html
Rel alternate hreflanghttps://support.google.com/webmasters/answer/189077?hl=ithttps://plus.google.com/+JohnMueller/posts/17fbv5phpkshttp://www.seerinteractive.com/blog/case-study-the-impact-of-hreflang-tag/
Search Marketing Connect - 20 e 21 Novembre 2015, Milano #SMConnect67/67
Grazie!Spazio alle domande...
Per ulteriori informazioni:Email: [email protected]: @martinomosnaGoogle+: +MartinoMosna