← Hub Audit SEO · Audit SEO — Mac4Ever · Audit mobile — Butsoccers · Référencement web (page pilier)

Crawl & indexation (audit SEO)

Le crawl et l’indexation, c’est la plomberie du SEO. Si c’est cassé, le reste est décoratif. Ici : les contrôles essentiels (robots.txt, sitemap, canonicals, statuts HTTP, duplication) et une checklist actionnable pour diagnostiquer vite.

Voir la checklist Voir des exemples Discuter d’un audit

Crawl vs indexation

Crawl : Googlebot explore vos URLs (découverte + navigation).
Indexation : Google décide de stocker une page dans son index (donc éligible à ranker).

Une page peut être crawlée mais non indexée (qualité faible, duplication, noindex, canonicals, etc.), et une page peut être indexable mais jamais découverte (maillage pauvre, page orpheline).

Symptômes typiques

Pages importantes invisibles dans Google
Indexation partielle, instable, ou “pages exclues” en masse
Beaucoup d’URLs inutiles crawlées (paramètres, filtres, facettes)
Duplication (www/non-www, http/https, slash, paramètres)
Erreurs 3xx/4xx/5xx sur des pages censées être stratégiques

Points de contrôle essentiels

1) Statuts HTTP

Vérifiez les 200/301/302/404/410/5xx. Les 301 doivent être cohérents (pas de chaînes), les 404/410 doivent être assumées, et les 5xx sont des urgences.

2) robots.txt

Robots bloque le crawl. Ce n’est pas un outil de “désindexation”. On évite de bloquer des sections stratégiques et on s’assure que le sitemap est déclaré.

3) Sitemap XML

Le sitemap doit contenir les URLs canoniques importantes (200, indexables), pas du bruit. Il sert à accélérer la découverte et à clarifier ce qui compte.

4) Balises meta robots (noindex/nofollow)

noindex empêche l’indexation (même si la page est crawlée). Très utile, mais dangereux si appliqué par erreur.

5) Canonicals

Canonical indique la version “officielle” d’une page. Si les canonicals sont incohérents, vous demandez à Google de choisir à votre place, et il le fera… parfois mal.

6) Duplication & variantes d’URL

Variantes techniques (http/https, www/non-www, trailing slash), paramètres, pages proches : ça dilue le crawl budget et affaiblit la clarté de l’index.

7) Maillage interne (découverte)

Une page importante doit recevoir des liens internes depuis un hub/pilier. Sans liens entrants, elle est “orpheline” : découverte tardive, poids faible.

Ce que produit un audit crawl/indexation

L’objectif n’est pas de “lister des erreurs”, mais de décider quoi corriger et dans quel ordre. Un audit crawl/indexation sérieux aboutit généralement à :

une liste d’URLs / sections bloquées (crawl) et exclues (indexation) avec cause probable
des corrections techniques prioritaires (P0/P1/P2) : redirections, robots, canonicals, noindex, statuts
un sitemap nettoyé (URLs canoniques + importantes)
une stratégie anti-duplication (variantes + paramètres + consolidation)
un plan de validation (Search Console + recrawl) pour vérifier que la correction produit un effet

Checklist actionnable (crawl & indexation)

P0 (bloquants)

Pages stratégiques en noindex / canonicals erronés
robots.txt bloque des sections importantes
5xx / erreurs serveur sur pages importantes
Chaînes de redirections ou boucles

P1 (optimisations fortes)

Sitemap pollué (URLs non canoniques / inutiles)
Duplication d’URLs (variantes, paramètres)
Pages importantes orphelines (pas de liens internes)
Pagination/facettes mal contrôlées

P2 (améliorations continues)

Nettoyage progressif du crawl “bruit” (paramètres inutiles)
Consolidation des contenus faibles (fusion / redirections)
Monitoring Search Console (exclusions, couverture, sitemaps)

Exemples

Ces études de cas illustrent le type de points contrôlés dans un audit crawl/indexation et dans les livrables techniques.

Audit / Technique

Audit SEO — Mac4Ever

Architecture, URLs, crawl, robots.txt, sitemap, indexation + plan d’action priorisé.

Voir le projet

Audit / Mobile

Audit mobile — Butsoccers

Core Web Vitals + erreurs techniques (403, robots.txt) + plan d’action.

Voir le projet

FAQ — Crawl & indexation

Robots.txt empêche-t-il l’indexation ?

Robots.txt empêche surtout le crawl. Une URL bloquée peut parfois rester indexée si elle est connue ailleurs. Pour empêcher l’indexation, on utilise plutôt noindex ou une stratégie de consolidation.

À quoi sert un canonical ?

Le canonical indique la version préférée d’un contenu. Il aide Google à choisir la bonne URL quand il existe plusieurs variantes proches (paramètres, catégories, doublons).

Le sitemap suffit-il pour être indexé ?

Non. Le sitemap aide à découvrir, mais l’indexation dépend aussi de la qualité, de la duplication, des signaux, et du fait que la page soit utile et cohérente avec l’intention.

Discuter d’un audit crawl/indexation Retour à la page Audit SEO

Après diagnostic, pas avant.