Indexation et sitemaps : comprendre pourquoi vos pages (ne) sont (pas) sur Google

Pas indexée = pas visible

La règle est brutale : une page qui n'est pas dans l'index de Google n'existe pas pour la recherche. Avant même de parler de positionnement, il faut résoudre l'indexation. Beaucoup de sites souffrent non pas d'un problème SEO mais d'un problème d'index.

Vérifiez toujours l'indexation d'une page importante avant de vous demander pourquoi elle ne remonte pas.

Le parcours d'une URL, d'écriture à l'index

graph LR
    A[Publication d'une page] --> B[Découverte par Google]
    B --> C[Exploration<br/>crawl]
    C --> D[Rendu / analyse]
    D --> E[Décision d'indexation]
    E --> F{Indexable ?}
    F -->|Oui| G[Stockée dans l'index]
    F -->|Non| H[Exclue avec raison]
    G --> I[Éligible au classement]

Chaque étape peut échouer. GSC vous expose le diagnostic à chaque étape dans le rapport Indexation → Pages.

Le rapport « Pages » : le diagnostic clé

La vue d'ensemble

Le rapport sépare vos URL en deux catégories :

Statut	Signification
Indexées	Présentes dans l'index de Google, éligibles au classement
Non indexées	Connues de Google mais pas dans l'index

Un site sain a plus de pages indexées que non indexées — sauf s'il comporte beaucoup de pages volontairement exclues (recherche interne, pages paginées, admin, etc.).

Les raisons de non-indexation

graph TD
    A[Pages non indexées] --> B[Volontaire]
    A --> C[Involontaire]
    B --> B1[Page avec balise noindex]
    B --> B2[Page bloquée par robots.txt]
    B --> B3[Page alternative avec canonical]
    C --> C1[Détectée, non explorée]
    C --> C2[Explorée, non indexée]
    C --> C3[Dupliquée sans canonical choisie par l'utilisateur]
    C --> C4[Page avec redirection]
    C --> C5[Soft 404]
    C --> C6[Erreur serveur 5xx]

Tableau détaillé des statuts et actions

Statut	Ce que dit Google	Action recommandée
Exclue par une balise « noindex »	Vous avez volontairement exclu	Vérifier que c'est intentionnel
Bloquée par robots.txt	Le crawler ne peut pas accéder	Si intentionnel : OK. Sinon : corriger robots.txt
Détectée, actuellement non indexée	Google connaît l'URL mais n'a pas encore pris le temps de crawler	Patience + renforcer les liens internes vers la page
Explorée, actuellement non indexée	Google a crawlé mais jugé pas assez pertinente	Signal fort : le contenu est faible, dupliqué ou inutile
Page avec redirection	Vous redirigez cette URL	Normal en cas de refonte, sinon à vérifier
Page en double, Google a choisi un canonical différent	Google a choisi une autre version	Vérifier les balises canonical
Page en double sans canonical	Doublons multiples sans instruction claire	Ajouter une balise canonical
Erreur du serveur (5xx)	Le serveur a répondu 500, 502, 503...	À corriger en urgence — perte de budget de crawl
Erreur soft 404	Page vide ou « rien trouvé » renvoyant un 200	Retourner un vrai 404 ou étoffer la page
Non trouvée (404)	Lien cassé menant à rien	Rediriger en 301 ou laisser mourir

Le plus traître : « Explorée, actuellement non indexée »

C'est le statut qui réveille les SEO. Google a lu votre page et a décidé de ne pas l'indexer. Causes fréquentes :

Contenu trop court ou trop faible en valeur ajoutée
Quasi-duplication avec d'autres pages du site
Qualité globale du domaine dégradée
Structure thin content (pages générées automatiquement)

Action : enrichir la page, améliorer la profondeur, ajouter de l'expertise unique (E-E-A-T).

L'outil d'inspection d'URL

C'est le couteau suisse de GSC. Collez n'importe quelle URL de votre propriété dans la barre en haut.

Ce que vous apprenez en 5 secondes

Info	Ce qu'elle révèle
URL sur Google ou non	La réponse directe à « suis-je indexé ? »
Dernière exploration	Quand Google est passé pour la dernière fois
Origine de la découverte	Sitemap ? Lien interne ? Lien externe ?
Canonical déclarée vs canonical retenue	Alertes en cas de divergence
Ergonomie mobile	Page utilisable sur mobile
Core Web Vitals associés	Si l'URL a assez de trafic pour être évaluée

Le bouton magique : « Tester l'URL en direct »

Fait un fetch temps réel avec Googlebot. Vous voyez :

Le code HTML que Google voit
Une capture d'écran rendue (utile pour les sites en JS)
Les ressources chargées ou bloquées

Demander l'indexation

Bouton « Demander une indexation » quand vous :

Venez de publier une nouvelle page importante
Venez de mettre à jour un contenu majeur
Avez corrigé un problème et voulez accélérer la reprise

Limite : quota quotidien (environ 10-12 demandes par jour). À ne pas utiliser pour du batch — Google recrawle naturellement.

Les sitemaps : guider le robot

À quoi sert un sitemap

Un sitemap XML est une liste complète des URLs que vous voulez que Google explore. Il ne garantit pas l'indexation mais il :

Accélère la découverte des nouvelles pages
Signale la date de dernière modification
Priorise les URLs importantes
Permet à GSC d'afficher un rapport dédié

Format minimal

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://www.example.com/</loc>
    <lastmod>2026-04-15</lastmod>
  </url>
  <url>
    <loc>https://www.example.com/formations/google-ads</loc>
    <lastmod>2026-04-20</lastmod>
  </url>
</urlset>

Les règles du sitemap

Règle	Détail
Limite de taille	50 Mo décompressés et 50 000 URLs par fichier
Sitemap d'index	Pour regrouper plusieurs sitemaps si dépassement
URLs absolues	Toujours en `https://` complet
Seulement les pages indexables	Pas de pages en noindex ou bloquées par robots
URLs canoniques uniquement	Pas les variantes redirigées
Mise à jour dynamique	`<lastmod>` doit refléter les vraies modifications

Soumettre le sitemap

Dans GSC, menu Indexation → Sitemaps :

Saisir le chemin : sitemap.xml
Cliquer sur « Envoyer »
Attendre quelques heures à quelques jours

Vous verrez ensuite :

Nombre d'URLs découvertes dans le sitemap
Nombre d'URLs indexées depuis ce sitemap
Erreurs éventuelles de parsing

Les sitemaps spécifiques

Type	Usage
Sitemap vidéo	Pour les contenus vidéo avec thumbnail, durée, etc.
Sitemap image	Pour enrichir la découverte d'images
Sitemap actualités	Spécifique à Google News
Sitemap multilingue (hreflang)	Site avec plusieurs langues/régions

Le fichier robots.txt et GSC

GSC lit votre robots.txt et vous alerte en cas d'incohérence.

Testeur de robots.txt (legacy)

L'ancien outil de test a été retiré en 2024. Désormais, utilisez l'inspection d'URL : si la page est bloquée par robots, GSC vous le dit directement.

Erreurs classiques

# ERREUR : bloque tout le site
User-agent: *
Disallow: /

# CORRECT : autoriser, exclure seulement ce qui doit l'être
User-agent: *
Disallow: /admin/
Disallow: /search?
Sitemap: https://www.example.com/sitemap.xml

Signal d'alerte : après une refonte, toujours vérifier que le robots.txt n'est pas resté en mode « staging » (Disallow: /).

La hiérarchie des signaux d'indexation

En cas de conflit entre plusieurs signaux, Google respecte cet ordre :

graph TD
    A[robots.txt bloquant<br/>la plus forte restriction] --> B[Balise noindex<br/>empêche l'indexation]
    B --> C[Balise canonical<br/>désigne la version préférée]
    C --> D[Sitemap<br/>suggestion]
    D --> E[Liens internes et externes<br/>signaux de pertinence]

Piège : si une page est bloquée par robots.txt, Google ne la crawle pas et donc ne voit pas sa balise noindex. Elle peut rester dans l'index sans description (« URL connue mais non crawlée »). Pour désindexer, il faut autoriser le crawl puis mettre noindex.

Cas pratiques typiques

Cas 1 — Une nouvelle page ne ressort pas sur Google

Inspecter l'URL
Vérifier si elle est indexée
Si non indexée : demander l'indexation
Si « détectée, non explorée » : renforcer les liens internes
Si « explorée, non indexée » : enrichir significativement le contenu

Cas 2 — Chute brutale du nombre de pages indexées

Vérifier si un bloc a été ajouté dans le robots.txt
Vérifier si une migration récente a modifié les URL
Contrôler les balises canonical (pointent-elles au bon endroit ?)
Vérifier dans « Pages → Non indexées » quelle raison domine

Cas 3 — Pages dupliquées par paramètres URL

URL avec filtres ou tri : /produits?color=blue&size=M. Google peut les considérer comme dupliquées.

Utiliser la balise rel="canonical" vers l'URL propre
OU exclure ces paramètres via le fichier robots.txt
OU utiliser noindex si vraiment pas utile

Résumé

L'indexation est la condition préalable à toute performance SEO. Le rapport « Pages » de GSC vous donne les raisons précises de non-indexation — apprenez à les interpréter. L'outil Inspection d'URL est votre diagnostic en direct, à utiliser au quotidien. Soumettez et maintenez un sitemap propre, surveillez la hiérarchie des signaux (robots.txt, noindex, canonical). Dans le prochain chapitre, nous passons à l'expérience utilisateur : Core Web Vitals et mobile.