Lors des mises à jour de l’algorithme de Google, le focus est généralement mis sur la qualité des contenus qui sont proposés dans les résultats de recherche. Depuis des années maintenant, c’est le fer de lance du géant du web. Pour y parvenir, nous avons connu de nombreux changements majeurs. Parmi les plus récents, il s’agit de la manière dont Google Bot va venir crawler vos pages. Depuis quelques mois, bon nombre de SEO parlent de lenteurs d’indexation et même de bugs. Qu’en est-il exactement ?
Un robot plus économe
Lorsque vous créez un nouveau site, de nombreux bots vont venir le visiter afin de l’indexer dans différents moteurs de recherche. Cela peut être Bing ou Google mais il en existe des centaines d’autres. Concrètement, ces robots se comportent comme un visiteur lambda qui va naviguer sur vos pages. Le truc, c’est que l’affichage d’une page web génère du CO2, un chose qui peut vite devenir problématique à l’échelle du web. Si le sujet vous intéresse, je vous invite à tester le service Website Carbon Calculator qui vous donnera quelques indications sur la pollution engendrée par vos sites. Partant de ce constat, Google a décidé de calmer les ardeurs de ses bots afin qu’ils soient plus pertinents dans les choses qu’ils explorent. Le message est clair depuis plusieurs années maintenant, le géant de la recherche ne souhaite plus indexer tout le web mais seulement les contenus les plus qualitatifs.
S’il ne fait aucun doute qu’il s’agit ici de greenwashing et que le but est de réaliser de jolies économies sur les ressources serveur, le fait est que cette posture reste intelligente. Sur de nombreux sites, il y a toujours plus ou moins des pages qui ne sont pas forcément utiles à référencer dans un moteur de recherche. Je pense notamment aux multiples pages d’archives que peut générer un CMS comme WordPress, par exemple. Bien que ces pages puissent être utiles aux visiteurs, elles ne sont pas forcément pertinentes à indexer. Notez aussi que cela fait plusieurs années que Google nous rabat les oreilles avec l’optimisation de l’affichage. Cela rentre également dans cette politique d’économie d’énergie et de ressources. Plus votre site sera optimisé et moins il émettra de CO2 et plus il sera facile de l’indexer. L’équation est assez simple finalement. Big G met d’ailleurs un très bon outil pour vous aider dans cette démarche : PageSpeed Insights.
Pour faire simple, Google met tout en œuvre pour réduire ses coûts et produire le moins d’émissions carbone. Pour se faire, ils ont fait le choix de changer de direction en n’indexant que les contenus qui leur semblent les plus pertinents. De ce fait et de manière générale, l’indexation d’un site peut être un peu plus lente que par le passé. Si la patience a toujours été une grande qualité pour un référenceur, c’est encore plus vrai aujourd’hui.
D’où vient ce « filtre 4 pages » ?
Tous ces changements ont entrainé de nouveaux comportements de la part du robot Google. La première chose la plus visible, c’est le temps que peut mettre Google à indexer un nouveau site. Rien de tel pour agacer les plus impatients qui ont lancé quelques threads sur les forums spécialisés en SEO. On a alors vu apparaitre le terme de « filtre 4 pages ». Un pattern qui semble se répéter sur des sites assez jeunes mais aussi sur les sites de mauvaise qualité. L’idée derrière ce ralentissement général chez Google, c’est aussi d’éviter d’indexer les sites un peu spammy. Une chose qui se répand de plus en plus, notamment avec l’arrivée des IA qui peuvent maintenant générer des textes plus ou moins cohérents (cela reste toutefois de mauvais contenus et peu utiles). La chose étonnante ici, c’est que Google indexe bien des pages mais seulement 4. D’où ce terme « filtre 4 pages ».
D’après mes tests et de ce que j’en ai lu ici et là, le problème arrive évidemment sur les sites qui génèrent des contenus automatiquement et en masse mais aussi sur les sites qui utilisent un domaine qui a expiré et/ou qui avait été exploités par le passé. Il semblerait aussi que de trop nombreuses redirections 301 d’anciens noms de domaine vers un nouveau peut aussi être problématique. Je pense que Google freine un peu son robot lorsqu’il devient un peu suspicieux envers un site. Parce que les contenus ne sont pas forcément mauvais mais la fréquence à laquelle ils arrivent et les nombreux liens qui apparaissent trop rapidement peuvent être un signal d’une certaine tentative de manipulation des résultats de recherche. A priori, ce nouveau fonctionnement a quelques effets de bords sur certains sites légitimes mais cela semble relativement anecdotique.
Ce qu’il faut comprendre ici, c’est qu’il faut maintenant s’adapter au rythme que semble vouloir nous donner Google Bot. Concrètement, il faut humaniser les cadences sur tous les aspects du SEO mais aussi des contenus. Pour un site très jeune, produire trop de contenus d’un seul coup peut vite être mal perçu. Cela semble assez logique. Plutôt que de publier un site complet en une seul fois, préférez la publication quotidienne d’articles. Cela vous laissera aussi le temps de les partager sur vos différents sociaux et de laisser vos followers digérer votre publication. Notez bien que l’on parle d’un jeune site. Plus le temps avancera, plus il gagnera en notoriété et plus vous aurez de libertés.
Techniquement, ce « filtre 4 pages » n’existe pas. Il semblerait qu’il s’agisse surtout du nouveau fonctionnement de l’algorithme Google. S’il vous arrive de constater ce problème via la commande « site: », il faudra peut être s’interroger sur la qualité de vos contenus et/ou de la structure de votre site. Encore une fois et avant de paniquer, donnez un peu de temps à Google Bot qui n’a pas que votre petit site à indexer. Notez aussi que l’environnement dans lequel évoluent vos articles sur votre site peut peser dans la balance. Un bon article noyé dans une masse de contenus de faible qualité peut entrainer sa non-indexation.
Comment régler ce problème d’indexation ?
Si vous êtes en train de lire cet article, j’imagine que vous avez un niveau assez avancé en référencement mais il est bon de rappeler que Google propose ses outils pour les webmasters. Tout d’abord avec Search Console qui va vous permettre d’ajouter un plan de site. Une démarche indispensable qui permet d’envoyer un ping à Google à chaque nouvelle publication. Il y a aussi le Publisher Center pour les sites d’actualités. Cet outil permet d’être présent dans Google Actualités et Google Discover notamment. Un travail indispensable à mettre en œuvre sur tout nouveau site. Notez que vous avez aussi la possibilité d’importer vos données Search Console dans Bing Webmaster Tools. Faites-le.
Pour sortir de ce « filtre 4 pages », il faut tout simplement s’armer de patience. Toutefois il est possible que les choses s’accélèrent lorsqu’il y aura des liens légitimes qui pointeront vers vos pages. C’est notamment pour cette raison que certains référenceur conseillent de créer une page Google My Business, une chose qui a tendance à débloquer certaines situations. C’est plutôt logique quand on sait à quel point les données de Google Maps peuvent être scrapper par de nombreux sites web. Concrètement en créant votre fiche professionnelle sur Google, vous gagnerez des liens. Ce qui peut, effectivement, envoyer un bon signal aux robots Google qui trouveront plus de liens qui pointent vers votre nom de domaine. Ca n’est pas magique, c’est logique.
De mon côté, j’ai constaté que des mentions légales et éventuellement une page « A propos » pour un blog personnel pouvait aussi être un bon signal pour Google. En effet, la plupart des sites qui spamment se gardent bien d’afficher le nom de leur propriétaire. Si en plus vous êtes en mesure de fournir des liens vers des réseaux sociaux, une adresse postale, un email et un numéro de téléphone, cela ne fera qu’envoyer encore plus de signaux positifs.
Il semblerait aussi que certains référenceurs ont obtenu des résultats en utilisant l’API de Google. Une manière de « forcer » l’indexation en envoyant des pings via cette plateforme. Pour ma part, je reste assez peu convaincu puisque c’est ce que fait déjà plus ou moins Search Console de manière automatisée mais aussi l’inspection de l’URL. Pour faire simple, utilisez les outils mis à disposition par Google. Généralement ils vous donnent de bonnes indications et permettent, dans la plupart des cas, de débloquer la situation. Vous y trouverez notamment les pages détectées ou explorées mais non indexées. Cela donne souvent de bonnes pistes pour résoudre ses problèmes.
Enfin, depuis ces changements dans le comportement du robot Google, certains services d’indexation ont émergés. Contre une petite somme, on vous promet que la plupart de vos pages seront indexées dans Google. Si, effectivement, cela semble fonctionner, c’est une dépense qui n’est pas forcément nécessaire si vous savez comment mettre en avant vos contenus et s’ils arrivent à obtenir des liens naturels. Dans la plupart des cas, la patience sera récompensée. Dépensez plutôt votre argent dans la production de contenus de qualité. Basiquement une page non indexée le sera grâce à quelques liens pertinents.
Avec le temps, l’herbe devient du lait
Encore une fois, le « filtre 4 pages » n’existe pas. Il semble s’agir d’un pattern qui s’est répété chez plusieurs utilisateurs (particulièrement en France ?). La vérité, c’est que Google a drastiquement réduit le nombre de contenus qu’il indexe mais aussi la fréquence à laquelle il le fait. Libre à vous de dépenser votre argent dans des outils qui accélèreront ce processus mais dans la pratique, on se rend compte que la patience est bien plus rentable. Profitez de la jeunesse de votre site pour y peaufiner les derniers détails, améliorer les contenus déjà existants et/ou vérifier que tout est en ordre du côté SEO. Produisez du contenu de qualité, ne misez pas sur la quantité. D’expérience, un très bon article peut drainer plus de trafic qu’une centaine peu intéressants. Si votre page n’est pas indexée, améliorez là. Surpassez-vous continuellement. N’allez pas vers la facilité.
Les cas où un site ne s’indexe pas au bout de plusieurs mois restent assez rares et généralement c’est parce qu’ils ont des pratiques discutables. Les moteurs de recherche sont une manière de drainer du trafic mais, aujourd’hui, ça n’est plus le seul. En attendant que l’ensemble de votre site soit indexé, n’hésitez pas non plus à travailler vos réseaux sociaux. Être présent partout où c’est nécessaire enverra aussi de bons signaux. Développez vos communautés et soyez patient. C’est encore le meilleur conseil que l’on peut donner. Désormais il existe de très nombreuses raisons pour lesquelles Google ne souhaite pas indexer un contenu. Ne le prenez pas personnellement, retournez sur vos articles et posez-vous la question sur leur valeur ajoutée. Est-ce qu’ils répondent à un besoin ? Est-ce qu’ils ont un intérêt réel autre que le SEO ? Tout autant de question qui vous feront vous remettre en cause et qui vous aideront à proposer des contenus encore meilleurs.
L’erreur serait de prendre ces non-indexations comme une punition (dans le cas d’un site légitime). Voyez cela plutôt comme un conseil de la part de Google qui tente de vous dire que, peut être, votre contenu n’est pas pertinent. Mais encore une fois, tout peut se débloquer du jour au lendemain si vous êtes « en règle » de votre côté. Je vais le redire : SOYEZ PATIENT. Pour conclure, je dirais que ce problème n’en est pas forcément un car dans 90 % des cas, tout revient à la normal après quelques semaines. Si vraiment cela ne se débloque pas, posez-vous des questions sur vos pratiques. Forcer l’indexation de contenus dont Google ne veut pas n’est peut être pas la chose la plus intelligente à faire. Pour moi, c’est aussi un excellent moyen de garder un regard critique sur ce que l’on produit.