Accueil » SEO » Google signale des plugins WordPress qui gaspillent le budget de crawl

Google signale des plugins WordPress qui gaspillent le budget de crawl

Rédigé par : Ilias Hajjoub  |  Lecture : 9 min  |  05 janvier 2026

En février 2026, Gary Illyes, membre de l’équipe Search Relations de Google, a révélé que l’équipe interne de crawl de Google a commencé à déposer des rapports de bugs directement auprès des développeurs de plugins WordPress.
Cette annonce a été faite lors d’un épisode du podcast Search Off the Record.

Gary Illyes y explique que Google a identifié plusieurs plugins responsables de comportements problématiques à grande échelle. Certains d’entre eux, notamment le paramètre d’URL “add-to-cart” de WooCommerce, entraînaient une multiplication artificielle de l’espace d’URL d’un site, pouvant doubler ou tripler le nombre d’URLs crawlables.
Ce phénomène entraîne un gaspillage massif du budget de crawl, ainsi qu’une augmentation inutile des requêtes de Googlebot vers les serveurs.

Suite au dépôt d’un bug public par Google, WooCommerce a corrigé le problème rapidement. En revanche, d’autres plugins présentant des dysfonctionnements similaires n’ont pas encore apporté de correctifs, laissant persister des sources structurelles de gaspillage de crawl sur de nombreux sites.

Ces révélations s’inscrivent dans le cadre du rapport interne de Google sur le crawl pour l’année 2025, qui met en évidence un point clé :
les patterns d’URLs générés automatiquement par des plugins constituent aujourd’hui l’une des principales causes de gaspillage du crawl à l’échelle du web.

Comprendre le budget de crawl et le rôle de l’équipe de crawl de Google

Qu’est-ce que le budget de crawl ?

Les moteurs de recherche allouent à chaque site un budget de crawl limité. Celui-ci correspond à une combinaison entre la quantité de ressources que le robot peut consommer et la fréquence à laquelle il revient explorer le site.

Lorsque ce budget est gaspillé sur des URLs à faible valeur, plusieurs conséquences apparaissent :

  • Le délai de découverte et d’indexation des pages importantes s’allonge
  • Les serveurs peuvent être inutilement sollicités, voire saturés
  • Les contenus stratégiques comme les pages produits ou les articles récents passent au second plan

Comme l’a expliqué Gary Illyes, Googlebot ne peut pas déterminer si un espace d’URLs est utile ou non sans en avoir exploré une partie significative.
Autrement dit, le crawler est obligé de tester même des URLs sans intérêt avant de pouvoir les considérer comme non pertinentes.

Lorsque des plugins génèrent des variations d’URLs en continu, Googlebot peut passer un temps considérable à les crawler. Ce temps n’est alors plus disponible pour les pages à forte valeur ajoutée, comme les fiches produits ou les contenus éditoriaux.

Le rapport interne de Google sur le crawl en 2025

Le rapport interne de Google pour l’année 2025 classe les problèmes de crawl signalés par les webmasters en grandes catégories récurrentes.

Selon Gary Illyes :

  • La navigation à facettes représente environ 50 % des problèmes de crawl identifiés
  • Les paramètres d’action, comme ?add-to-cart=true, comptent pour environ 25 %
  • Les paramètres non pertinents ou les identifiants de session représentent environ 10 %
  • Les espaces infinis, souvent générés par des calendriers ou des widgets, environ 5 %

À elles seules, ces quatre catégories concentrent près de 85 % du gaspillage total du budget de crawl observé par Google.

Un point clé ressort clairement du rapport : la majorité de ces problèmes ne sont pas volontairement créés par les propriétaires de sites. Ils proviennent le plus souvent de plugins et de thèmes populaires, largement utilisés dans l’écosystème WordPress, qui génèrent automatiquement ces patterns d’URLs problématiques.

Comment les plugins WordPress gaspillent le budget de crawl

Les paramètres d’action et la multiplication de l’espace d’URLs

Les paramètres d’action sont des paramètres d’URL qui déclenchent une action technique plutôt qu’un changement réel de contenu.
Parmi les exemples les plus courants figurent ?add-to-cart=true, ?wishlist=add ou ?action=save.

Chaque paramètre génère une nouvelle URL crawlable. Lorsqu’ils sont combinés, ces paramètres peuvent doubler ou tripler artificiellement l’espace d’URLs d’un site.
Or, comme l’a rappelé Gary Illyes, Googlebot n’effectue pas d’achats. Chaque milliseconde passée à crawler une URL d’action est donc du temps et des ressources totalement gaspillés.

Selon les données partagées par Google, les paramètres d’action représentent environ 25 % du gaspillage total du budget de crawl observé en 2025.

Étude de cas WooCommerce

Le cas le plus emblématique concerne WooCommerce, l’un des plugins e-commerce les plus utilisés au monde.

Google a identifié que les URLs “add-to-cart” générées par WooCommerce permettaient l’empilement de paramètres. Ce mécanisme augmentait massivement le nombre d’URLs crawlables sans créer de contenu supplémentaire.

Plutôt que de traiter le problème site par site, Google a fait un choix stratégique :
l’équipe de crawl a déposé un bug directement dans le dépôt open source du plugin.

WooCommerce a réagi rapidement et publié un correctif. Ce changement, appliqué au niveau du plugin, a permis de réduire le gaspillage de crawl sur des milliers de sites simultanément.

En revanche, d’autres plugins souffrant de bugs similaires liés aux paramètres d’action n’ont toujours pas été corrigés.
Un plugin de calendrier commercial, générant des espaces d’URLs infinis, aurait même ignoré les tentatives de contact de Google, illustrant les limites des interventions lorsque les outils sont fermés ou peu maintenus.

La navigation à facettes, le plus grand destructeur de budget de crawl

La navigation à facettes permet aux utilisateurs de filtrer des produits selon différents critères comme la couleur, la taille ou le prix. Techniquement, ces filtres reposent sur l’ajout de multiples paramètres d’URL.

Chaque combinaison de filtres génère une URL unique. Avec plusieurs attributs, cela peut créer des millions de pages à faible valeur.

La documentation officielle de Google sur la navigation à facettes souligne que ces patterns entraînent un sur-crawl massif, obligeant les moteurs de recherche à explorer une quantité énorme d’URLs inutiles, ce qui ralentit la découverte des contenus réellement importants.

Google recommande deux approches principales :

  • Bloquer les URLs de navigation à facettes via robots.txt
  • Ou les optimiser correctement en utilisant des séparateurs standards, un ordre cohérent des paramètres et des réponses 404 pour les filtres sans résultat

La navigation à facettes représente environ 50 % de l’ensemble des rapports de problèmes de crawl.

Une analyse de Stan Ventures décrit ce phénomène comme de véritables trous noirs du budget de crawl. Lorsqu’un pattern de filtres est découvert, Googlebot entre en phase d’exploration intensive et consomme le budget de crawl de manière incontrôlée, avant même de pouvoir qualifier ces URLs comme inutiles.

Paramètres non pertinents et identifiants de session

Malgré leur caractère obsolète, les identifiants de session et autres paramètres non pertinents représentent encore environ 10 % des problèmes de crawl.

Chaque identifiant de session ajouté à une URL crée une page unique. Googlebot interprète chaque session comme une nouvelle page, ce qui génère :

  • Du contenu quasi dupliqué
  • Une dilution des signaux SEO de la page principale
  • Un gaspillage continu de ressources de crawl
Espaces infinis générés par les plugins de calendrier

Certains plugins génèrent des espaces d’URLs infinis, souvent via des calendriers ou des systèmes de pagination illimitée.

Un exemple cité par Google concerne un plugin de calendrier commercial capable de créer des URLs valides pour toutes les dates possibles, sur chaque chemin du site. Ces URLs n’ont aucune valeur réelle mais sont techniquement crawlables.

Ces espaces infinis représentent environ 5 % des problèmes de crawl recensés.
Les tentatives de contact de Google auprès de l’éditeur du plugin sont restées sans réponse, mettant en lumière une réalité critique : les plugins fermés ou mal maintenus peuvent devenir des sources structurelles de crawl waste impossibles à corriger à la source.

Explosion des URLs de filtres WooCommerce (WordPress.org)

Un site WooCommerce basé au Royaume Uni a subi une explosion massive d’URLs de filtres. En l’espace de deux semaines, Google Search Console a signalé une augmentation spectaculaire du nombre de pages marquées comme page alternative avec balise canonique correcte, passant d’environ 15 000 à 149 000 entrées, ainsi qu’environ 6 000 pages supplémentaires indexées.

Les URLs de filtres en question étaient générées par des filtres AJAX. Elles n’étaient ni liées dans le HTML visible ni incluses dans les sitemaps. Malgré cela, Google les a crawlées de manière intensive.

Cette activité a eu un impact direct sur l’infrastructure. L’utilisation CPU liée au crawl sur le serveur d’hébergement est passée d’environ 40 000 secondes par jour à plus de 400 000 secondes par jour, soit une multiplication par dix de la charge serveur, sans aucun bénéfice SEO ou business.

Face à cette situation, le propriétaire du site a envisagé une stratégie combinée :

  • Bloquer les combinaisons complexes de filtres via robots.txt
  • Conserver les URLs à filtre unique en les canonisant vers les pages principales

Le support de Yoast a confirmé que le blocage des URLs de filtres dans robots.txt, associé à une canonicalisation vers les pages principales, constitue une solution pérenne et conforme aux bonnes pratiques sur le long terme.

Bug lié aux paramètres d’action et correctif au niveau du plugin

Le cas WooCommerce illustre parfaitement l’efficacité d’une intervention au niveau du plugin.

En déposant un bug directement dans le dépôt du plugin, Google a déclenché un correctif qui a amélioré l’efficacité du crawl pour des milliers d’installations simultanément. Cette approche s’avère nettement plus efficace que la résolution du problème site par site.

Cependant, cette stratégie présente une limite structurelle importante. Elle ne fonctionne que pour les plugins open source disposant de mainteneurs actifs. Les plugins fermés, commerciaux ou abandonnés restent largement hors de portée de ce type d’intervention, laissant aux propriétaires de sites la responsabilité de gérer seuls les conséquences sur leur budget de crawl.

Technologies sous-jacentes et fonctionnement du problème

Architecture des plugins WordPress

L’architecture de WordPress repose sur un système d’extensions qui ajoutent des fonctionnalités via des hooks et des filtres.
De nombreux plugins e-commerce implémentent des fonctionnalités comme l’ajout au panier, les listes de souhaits, les filtres ou les calendriers en ajoutant des paramètres de requête aux URLs.

Ces paramètres utilisent le plus souvent des requêtes HTTP de type GET, ce qui les rend visibles dans l’URL et accessibles aux moteurs de recherche.
Dans certains cas, les développeurs empilent plusieurs paramètres, ce qui entraîne une multiplication exponentielle du nombre d’URLs crawlables, sans création de contenu supplémentaire.

Comportement de crawl de Googlebot

Le Googlebot découvre les patterns d’URLs en crawlant le web.
Comme l’a expliqué Gary Illyes, le robot ne peut pas déterminer si un espace d’URLs est utile sans en avoir exploré une partie significative.

Ainsi, lorsque des plugins génèrent de vastes espaces d’URLs, Googlebot tente de les crawler. Ce n’est qu’après avoir exploré un grand nombre de ces URLs et identifié leur caractère redondant que le robot commence à ralentir son activité.

Ce comportement implique une réalité importante pour les propriétaires de sites : les URLs à faible valeur doivent être bloquées de manière proactive, faute de quoi le budget de crawl sera consommé avant même que Google puisse juger ces URLs inutiles.

Robots.txt et méthodes HTTP

Le fichier robots.txt permet d’interdire le crawl de patterns d’URLs spécifiques, par exemple Disallow: /*?add-to-cart=*.
Cette approche empêche les moteurs de recherche de récupérer ces URLs et constitue l’un des moyens les plus efficaces de préserver le budget de crawl.

Modifier les URLs d’action pour qu’elles utilisent des requêtes HTTP de type POST plutôt que GET est également une bonne pratique. Les robots suivent rarement les formulaires POST, ce qui empêche la génération d’URLs crawlables inutiles.

Balises canoniques versus blocage

Les balises canoniques permettent de consolider les signaux SEO entre des URLs dupliquées. Cependant, Googlebot doit d’abord crawler la page pour découvrir la balise canonique.

Dans une logique d’optimisation stricte du budget de crawl, le blocage via robots.txt est plus efficace que la simple canonicalisation.
De la même manière, les balises noindex autorisent toujours le crawl de la page. Elles empêchent l’indexation, mais ne permettent pas d’économiser le budget de crawl.

Plugins SEO et gestion des paramètres

Certains plugins SEO proposent des fonctionnalités dédiées à la gestion des paramètres d’URL et au nettoyage du crawl.

All in One SEO intègre une fonctionnalité de Crawl Cleanup permettant d’empêcher les moteurs de recherche de crawler des pages à faible valeur.

Yoast SEO propose également la suppression des paramètres d’URL non enregistrés. Toutefois, cette option peut impacter certaines fonctionnalités e-commerce et doit être utilisée avec précaution.

Votre site est il prêt pour les crawlers d’aujourd’hui et de demain ?

Entre Googlebot, les crawlers IA et les agents automatisés, la manière dont votre site est exploré évolue rapidement. Nous aidons les marques à structurer des sites propres, performants et lisibles par les moteurs et les IA, sans gaspillage de ressources.

Bonnes pratiques pour corriger les problèmes de budget de crawl

Sur la base de la documentation de Google et des analyses du secteur, les actions suivantes permettent aux propriétaires de sites de réduire efficacement le gaspillage du budget de crawl.

Auditer les logs serveur et les statistiques de crawl

Analysez le rapport Crawl Stats de Google Search Console, ainsi que les logs serveur, afin d’identifier les patterns d’URLs crawlés de manière excessive.
Surveillez en particulier les paramètres suivants :
?add, ?action, ?sid, ?session, ?filter, ?sort.

Cette étape permet de comprendre précisément où Googlebot consomme inutilement des ressources.

Bloquer les URLs problématiques via robots.txt

Empêchez le crawl des combinaisons de paramètres à faible valeur en utilisant robots.txt.

Exemples de règles efficaces :
Disallow: /*?add-to-cart=*
Disallow: /*?filter_*&filter_*

Pour la navigation à facettes, utilisez soit robots.txt, soit des fragments d’URL (#) afin que les moteurs de recherche ignorent ces URLs.

Utiliser POST pour les actions

Convertissez les actions comme l’ajout au panier ou aux listes de souhaits en requêtes HTTP de type POST.
Les robots de recherche ignorent généralement ces formulaires, ce qui empêche la génération d’URLs crawlables inutiles.

Limiter les combinaisons de filtres crawlables

Restreignez le crawl uniquement aux combinaisons de filtres réellement nécessaires.

Bonnes pratiques recommandées :

  • Maintenir un ordre cohérent des paramètres
  • Utiliser des séparateurs standards &
  • Retourner un code 404 pour les combinaisons de filtres sans résultat

Ces mesures réduisent drastiquement le nombre d’URLs à faible valeur exposées aux moteurs.

Mettre en place des balises canoniques et des outils de nettoyage

Lorsque le blocage n’est pas possible, utilisez des balises canoniques pour consolider les signaux SEO entre URLs dupliquées.

Appuyez vous également sur les fonctionnalités de nettoyage du crawl proposées par les plugins SEO pour gérer les paramètres générés automatiquement.

Gérer les identifiants de session et les paramètres non pertinents

Évitez d’ajouter des identifiants de session aux URLs.
Privilégiez l’utilisation de cookies ou du stockage local pour gérer les sessions utilisateurs.

Si des paramètres UTM ou de tracking génèrent des pages crawlables, désactivez leur crawl afin d’éviter une inflation artificielle de l’espace d’URLs.

Traiter les pages de médias et la pagination

Redirigez les pages de pièces jointes vers leurs contenus parents ou bloquez leur crawl pour éviter la création de milliers de pages à faible valeur.

Pour les sites volumineux, assurez-vous que la pagination et les pages d’archives sont correctement optimisées afin d’éviter la duplication et le gaspillage du budget de crawl.

Conclusion

La décision de Google de déposer des rapports de bugs contre des plugins WordPress marque une évolution importante. Google ne se limite plus à publier des recommandations. Il intervient désormais directement lorsque des logiciels génèrent des problèmes structurels de budget de crawl.

Le rapport de crawl 2025 montre clairement que la navigation à facettes et les paramètres d’action représentent à eux seuls environ 75 % des problèmes de crawl. Les plugins qui génèrent des espaces d’URLs dupliqués ou infinis peuvent rapidement consommer le budget de crawl d’un site, surcharger les serveurs et retarder l’indexation des contenus importants.

Les propriétaires de sites ne peuvent plus supposer que les développeurs de plugins géreront systématiquement ces problèmes. Même des plugins très largement utilisés peuvent introduire du gaspillage de crawl sans avertissement visible. Des mesures proactives comme l’audit des logs, le blocage des URLs à faible valeur, l’utilisation de requêtes POST pour les actions, la mise en place de balises canoniques et l’exploitation des fonctionnalités de nettoyage proposées par les plugins SEO sont désormais indispensables pour préserver le budget de crawl et garantir une indexation efficace.

À mesure que les crawlers liés à l’IA et de nouvelles formes de trafic se développent, la responsabilité de l’efficacité du crawl se déplacera de plus en plus vers l’amont. Elle reposera conjointement sur les développeurs de plugins, les plateformes et les propriétaires de sites. Le SEO technique ne se limite plus à l’optimisation on page. Il consiste désormais à maintenir une infrastructure propre, maîtrisée, et à s’assurer que les logiciels installés ne dégradent pas silencieusement le budget de crawl.

Ilias Hajjoub

Ilias Hajjoub

Ilias est Head of SEM & Digital Marketing Specialist chez Kifcom 360. Passionné par l’IA, le SEO et la performance, il conçoit des campagnes basées sur les données et l’automatisation pour maximiser le ROI. Entre stratégie d’acquisition, optimisation du tunnel de conversion et veille sur les nouvelles technologies, il repousse sans cesse les limites du marketing digital.

Actualités digitales

Aller plus loin avec d’autres articles

Top