Indexation et sitemaps : comprendre pourquoi vos pages (ne) sont (pas) sur Google

Pas indexée = pas visible

La règle est brutale : une page qui n'est pas dans l'index de Google n'existe pas pour la recherche. Avant même de parler de positionnement, il faut résoudre l'indexation. Beaucoup de sites souffrent non pas d'un problème SEO mais d'un problème d'index.

Vérifiez toujours l'indexation d'une page importante avant de vous demander pourquoi elle ne remonte pas.

Le parcours d'une URL, d'écriture à l'index

graph LR
    A[Publication d'une page] --> B[Découverte par Google]
    B --> C[Exploration<br/>crawl]
    C --> D[Rendu / analyse]
    D --> E[Décision d'indexation]
    E --> F{Indexable ?}
    F -->|Oui| G[Stockée dans l'index]
    F -->|Non| H[Exclue avec raison]
    G --> I[Éligible au classement]

Chaque étape peut échouer. GSC vous expose le diagnostic à chaque étape dans le rapport Indexation → Pages.

Le rapport « Pages » : le diagnostic clé

La vue d'ensemble

Le rapport sépare vos URL en deux catégories :

Statut Signification
Indexées Présentes dans l'index de Google, éligibles au classement
Non indexées Connues de Google mais pas dans l'index

Un site sain a plus de pages indexées que non indexées — sauf s'il comporte beaucoup de pages volontairement exclues (recherche interne, pages paginées, admin, etc.).

Les raisons de non-indexation

graph TD
    A[Pages non indexées] --> B[Volontaire]
    A --> C[Involontaire]
    B --> B1[Page avec balise noindex]
    B --> B2[Page bloquée par robots.txt]
    B --> B3[Page alternative avec canonical]
    C --> C1[Détectée, non explorée]
    C --> C2[Explorée, non indexée]
    C --> C3[Dupliquée sans canonical choisie par l'utilisateur]
    C --> C4[Page avec redirection]
    C --> C5[Soft 404]
    C --> C6[Erreur serveur 5xx]

Tableau détaillé des statuts et actions

Statut Ce que dit Google Action recommandée
Exclue par une balise « noindex » Vous avez volontairement exclu Vérifier que c'est intentionnel
Bloquée par robots.txt Le crawler ne peut pas accéder Si intentionnel : OK. Sinon : corriger robots.txt
Détectée, actuellement non indexée Google connaît l'URL mais n'a pas encore pris le temps de crawler Patience + renforcer les liens internes vers la page
Explorée, actuellement non indexée Google a crawlé mais jugé pas assez pertinente Signal fort : le contenu est faible, dupliqué ou inutile
Page avec redirection Vous redirigez cette URL Normal en cas de refonte, sinon à vérifier
Page en double, Google a choisi un canonical différent Google a choisi une autre version Vérifier les balises canonical
Page en double sans canonical Doublons multiples sans instruction claire Ajouter une balise canonical
Erreur du serveur (5xx) Le serveur a répondu 500, 502, 503... À corriger en urgence — perte de budget de crawl
Erreur soft 404 Page vide ou « rien trouvé » renvoyant un 200 Retourner un vrai 404 ou étoffer la page
Non trouvée (404) Lien cassé menant à rien Rediriger en 301 ou laisser mourir

Le plus traître : « Explorée, actuellement non indexée »

C'est le statut qui réveille les SEO. Google a lu votre page et a décidé de ne pas l'indexer. Causes fréquentes :

  • Contenu trop court ou trop faible en valeur ajoutée
  • Quasi-duplication avec d'autres pages du site
  • Qualité globale du domaine dégradée
  • Structure thin content (pages générées automatiquement)

Action : enrichir la page, améliorer la profondeur, ajouter de l'expertise unique (E-E-A-T).

L'outil d'inspection d'URL

C'est le couteau suisse de GSC. Collez n'importe quelle URL de votre propriété dans la barre en haut.

Ce que vous apprenez en 5 secondes

Info Ce qu'elle révèle
URL sur Google ou non La réponse directe à « suis-je indexé ? »
Dernière exploration Quand Google est passé pour la dernière fois
Origine de la découverte Sitemap ? Lien interne ? Lien externe ?
Canonical déclarée vs canonical retenue Alertes en cas de divergence
Ergonomie mobile Page utilisable sur mobile
Core Web Vitals associés Si l'URL a assez de trafic pour être évaluée

Le bouton magique : « Tester l'URL en direct »

Fait un fetch temps réel avec Googlebot. Vous voyez :

  • Le code HTML que Google voit
  • Une capture d'écran rendue (utile pour les sites en JS)
  • Les ressources chargées ou bloquées

Demander l'indexation

Bouton « Demander une indexation » quand vous :

  • Venez de publier une nouvelle page importante
  • Venez de mettre à jour un contenu majeur
  • Avez corrigé un problème et voulez accélérer la reprise

Limite : quota quotidien (environ 10-12 demandes par jour). À ne pas utiliser pour du batch — Google recrawle naturellement.

Les sitemaps : guider le robot

À quoi sert un sitemap

Un sitemap XML est une liste complète des URLs que vous voulez que Google explore. Il ne garantit pas l'indexation mais il :

  • Accélère la découverte des nouvelles pages
  • Signale la date de dernière modification
  • Priorise les URLs importantes
  • Permet à GSC d'afficher un rapport dédié

Format minimal

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://www.example.com/</loc>
    <lastmod>2026-04-15</lastmod>
  </url>
  <url>
    <loc>https://www.example.com/formations/google-ads</loc>
    <lastmod>2026-04-20</lastmod>
  </url>
</urlset>

Les règles du sitemap

Règle Détail
Limite de taille 50 Mo décompressés et 50 000 URLs par fichier
Sitemap d'index Pour regrouper plusieurs sitemaps si dépassement
URLs absolues Toujours en https:// complet
Seulement les pages indexables Pas de pages en noindex ou bloquées par robots
URLs canoniques uniquement Pas les variantes redirigées
Mise à jour dynamique <lastmod> doit refléter les vraies modifications

Soumettre le sitemap

Dans GSC, menu Indexation → Sitemaps :

  1. Saisir le chemin : sitemap.xml
  2. Cliquer sur « Envoyer »
  3. Attendre quelques heures à quelques jours

Vous verrez ensuite :

  • Nombre d'URLs découvertes dans le sitemap
  • Nombre d'URLs indexées depuis ce sitemap
  • Erreurs éventuelles de parsing

Les sitemaps spécifiques

Type Usage
Sitemap vidéo Pour les contenus vidéo avec thumbnail, durée, etc.
Sitemap image Pour enrichir la découverte d'images
Sitemap actualités Spécifique à Google News
Sitemap multilingue (hreflang) Site avec plusieurs langues/régions

Le fichier robots.txt et GSC

GSC lit votre robots.txt et vous alerte en cas d'incohérence.

Testeur de robots.txt (legacy)

L'ancien outil de test a été retiré en 2024. Désormais, utilisez l'inspection d'URL : si la page est bloquée par robots, GSC vous le dit directement.

Erreurs classiques

# ERREUR : bloque tout le site
User-agent: *
Disallow: /

# CORRECT : autoriser, exclure seulement ce qui doit l'être
User-agent: *
Disallow: /admin/
Disallow: /search?
Sitemap: https://www.example.com/sitemap.xml

Signal d'alerte : après une refonte, toujours vérifier que le robots.txt n'est pas resté en mode « staging » (Disallow: /).

La hiérarchie des signaux d'indexation

En cas de conflit entre plusieurs signaux, Google respecte cet ordre :

graph TD
    A[robots.txt bloquant<br/>la plus forte restriction] --> B[Balise noindex<br/>empêche l'indexation]
    B --> C[Balise canonical<br/>désigne la version préférée]
    C --> D[Sitemap<br/>suggestion]
    D --> E[Liens internes et externes<br/>signaux de pertinence]

Piège : si une page est bloquée par robots.txt, Google ne la crawle pas et donc ne voit pas sa balise noindex. Elle peut rester dans l'index sans description (« URL connue mais non crawlée »). Pour désindexer, il faut autoriser le crawl puis mettre noindex.

Cas pratiques typiques

Cas 1 — Une nouvelle page ne ressort pas sur Google

  1. Inspecter l'URL
  2. Vérifier si elle est indexée
  3. Si non indexée : demander l'indexation
  4. Si « détectée, non explorée » : renforcer les liens internes
  5. Si « explorée, non indexée » : enrichir significativement le contenu

Cas 2 — Chute brutale du nombre de pages indexées

  1. Vérifier si un bloc a été ajouté dans le robots.txt
  2. Vérifier si une migration récente a modifié les URL
  3. Contrôler les balises canonical (pointent-elles au bon endroit ?)
  4. Vérifier dans « Pages → Non indexées » quelle raison domine

Cas 3 — Pages dupliquées par paramètres URL

URL avec filtres ou tri : /produits?color=blue&size=M. Google peut les considérer comme dupliquées.

  • Utiliser la balise rel="canonical" vers l'URL propre
  • OU exclure ces paramètres via le fichier robots.txt
  • OU utiliser noindex si vraiment pas utile

Résumé

L'indexation est la condition préalable à toute performance SEO. Le rapport « Pages » de GSC vous donne les raisons précises de non-indexation — apprenez à les interpréter. L'outil Inspection d'URL est votre diagnostic en direct, à utiliser au quotidien. Soumettez et maintenez un sitemap propre, surveillez la hiérarchie des signaux (robots.txt, noindex, canonical). Dans le prochain chapitre, nous passons à l'expérience utilisateur : Core Web Vitals et mobile.