Pourquoi Google n'indexe-t-il pas toujours tous les liens du fichier Sitemap ? - Arobasenet.com



Pourquoi Google n'indexe-t-il pas toujours tous les liens du fichier Sitemap ?

Fichier Sitemap.
Il a toujours été recommandé de créer un fichier Sitemap à soumettre aux moteurs de recherche afin de faciliter l'indexation des pages web du site. 

Mais, est-ce pour autant que toutes les pages seront indexées ?

C'est la question posée par un webmaster à Google Webmaster. Celui-ci dit avoir soumis un fichier Sitemap.xml de 40.000 URLs et qu'il se trouve qu'à ce jour, il n'y a que 100 URLs qui aient été indexées.

C'est Gary Illyes, un Googler, qui s'est chargé d'apporter la réponse ci-dessous :

"First and foremost, submitting a Sitemap doesn't guarantee the pages referenced in it will be indexed. Think of a Sitemap as a way to help Googlebot find your content: if the URLs weren't included in the Sitemap, the crawlers might have a harder time finding those URLs and thus they might be indexed slower. Another thing you want to pay attention to is that our algorithms may decide not to index certain URLs at all. For instance, if the content is shallow, it may totally happen it will not be indexed at all".

En d'autres termes, Gary Illyes déclare que soumettre un Sitemap à Google ne garantit en rien que toutes les pages mentionnées dans ce fichier seront indexées. Il demande de voir le fichier Sitemap comme un moyen d'aider GoogleBot  à trouver vos contenus. Car, si des URLs manquent dans votre fichier, les robots auront du mal à les trouver , et donc les explorer. Ce qui entraînerait une indexation très lente de vos pages.

Gary Illyes attire aussi l'attention des webmasters sur le fait que l'algorithme de Google pourrait décider de ne pas indexer toutes les URLs rencontrées. Ainsi, si GoogleBot rencontre un contenu qu'il juge inutile ou non pertinent ou encore non relié avec d'autres contenus du site, il pourrait l'exclure de l'indexation.

Il faut enfin savoir que pour que GoogleBot indexe une URL, celle-ci devrait :

- renvoyée une réponse 200 OK;

- ne pas être redirigée vers une autre URL;

- avoir une URL canonique identique;

- ne pas avoir de balise meta noindex dans le code source.