Indexation et sitemaps : comprendre pourquoi vos pages (ne) sont (pas) sur Google
Pas indexée = pas visible
La règle est brutale : une page qui n'est pas dans l'index de Google n'existe pas pour la recherche. Avant même de parler de positionnement, il faut résoudre l'indexation. Beaucoup de sites souffrent non pas d'un problème SEO mais d'un problème d'index.
Vérifiez toujours l'indexation d'une page importante avant de vous demander pourquoi elle ne remonte pas.
Le parcours d'une URL, d'écriture à l'index
graph LR
A[Publication d'une page] --> B[Découverte par Google]
B --> C[Exploration<br/>crawl]
C --> D[Rendu / analyse]
D --> E[Décision d'indexation]
E --> F{Indexable ?}
F -->|Oui| G[Stockée dans l'index]
F -->|Non| H[Exclue avec raison]
G --> I[Éligible au classement]
Chaque étape peut échouer. GSC vous expose le diagnostic à chaque étape dans le rapport Indexation → Pages.
Le rapport « Pages » : le diagnostic clé
La vue d'ensemble
Le rapport sépare vos URL en deux catégories :
| Statut | Signification |
|---|---|
| Indexées | Présentes dans l'index de Google, éligibles au classement |
| Non indexées | Connues de Google mais pas dans l'index |
Un site sain a plus de pages indexées que non indexées — sauf s'il comporte beaucoup de pages volontairement exclues (recherche interne, pages paginées, admin, etc.).
Les raisons de non-indexation
graph TD
A[Pages non indexées] --> B[Volontaire]
A --> C[Involontaire]
B --> B1[Page avec balise noindex]
B --> B2[Page bloquée par robots.txt]
B --> B3[Page alternative avec canonical]
C --> C1[Détectée, non explorée]
C --> C2[Explorée, non indexée]
C --> C3[Dupliquée sans canonical choisie par l'utilisateur]
C --> C4[Page avec redirection]
C --> C5[Soft 404]
C --> C6[Erreur serveur 5xx]
Tableau détaillé des statuts et actions
| Statut | Ce que dit Google | Action recommandée |
|---|---|---|
| Exclue par une balise « noindex » | Vous avez volontairement exclu | Vérifier que c'est intentionnel |
| Bloquée par robots.txt | Le crawler ne peut pas accéder | Si intentionnel : OK. Sinon : corriger robots.txt |
| Détectée, actuellement non indexée | Google connaît l'URL mais n'a pas encore pris le temps de crawler | Patience + renforcer les liens internes vers la page |
| Explorée, actuellement non indexée | Google a crawlé mais jugé pas assez pertinente | Signal fort : le contenu est faible, dupliqué ou inutile |
| Page avec redirection | Vous redirigez cette URL | Normal en cas de refonte, sinon à vérifier |
| Page en double, Google a choisi un canonical différent | Google a choisi une autre version | Vérifier les balises canonical |
| Page en double sans canonical | Doublons multiples sans instruction claire | Ajouter une balise canonical |
| Erreur du serveur (5xx) | Le serveur a répondu 500, 502, 503... | À corriger en urgence — perte de budget de crawl |
| Erreur soft 404 | Page vide ou « rien trouvé » renvoyant un 200 | Retourner un vrai 404 ou étoffer la page |
| Non trouvée (404) | Lien cassé menant à rien | Rediriger en 301 ou laisser mourir |
Le plus traître : « Explorée, actuellement non indexée »
C'est le statut qui réveille les SEO. Google a lu votre page et a décidé de ne pas l'indexer. Causes fréquentes :
- Contenu trop court ou trop faible en valeur ajoutée
- Quasi-duplication avec d'autres pages du site
- Qualité globale du domaine dégradée
- Structure thin content (pages générées automatiquement)
Action : enrichir la page, améliorer la profondeur, ajouter de l'expertise unique (E-E-A-T).
L'outil d'inspection d'URL
C'est le couteau suisse de GSC. Collez n'importe quelle URL de votre propriété dans la barre en haut.
Ce que vous apprenez en 5 secondes
| Info | Ce qu'elle révèle |
|---|---|
| URL sur Google ou non | La réponse directe à « suis-je indexé ? » |
| Dernière exploration | Quand Google est passé pour la dernière fois |
| Origine de la découverte | Sitemap ? Lien interne ? Lien externe ? |
| Canonical déclarée vs canonical retenue | Alertes en cas de divergence |
| Ergonomie mobile | Page utilisable sur mobile |
| Core Web Vitals associés | Si l'URL a assez de trafic pour être évaluée |
Le bouton magique : « Tester l'URL en direct »
Fait un fetch temps réel avec Googlebot. Vous voyez :
- Le code HTML que Google voit
- Une capture d'écran rendue (utile pour les sites en JS)
- Les ressources chargées ou bloquées
Demander l'indexation
Bouton « Demander une indexation » quand vous :
- Venez de publier une nouvelle page importante
- Venez de mettre à jour un contenu majeur
- Avez corrigé un problème et voulez accélérer la reprise
Limite : quota quotidien (environ 10-12 demandes par jour). À ne pas utiliser pour du batch — Google recrawle naturellement.
Les sitemaps : guider le robot
À quoi sert un sitemap
Un sitemap XML est une liste complète des URLs que vous voulez que Google explore. Il ne garantit pas l'indexation mais il :
- Accélère la découverte des nouvelles pages
- Signale la date de dernière modification
- Priorise les URLs importantes
- Permet à GSC d'afficher un rapport dédié
Format minimal
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://www.example.com/</loc>
<lastmod>2026-04-15</lastmod>
</url>
<url>
<loc>https://www.example.com/formations/google-ads</loc>
<lastmod>2026-04-20</lastmod>
</url>
</urlset>
Les règles du sitemap
| Règle | Détail |
|---|---|
| Limite de taille | 50 Mo décompressés et 50 000 URLs par fichier |
| Sitemap d'index | Pour regrouper plusieurs sitemaps si dépassement |
| URLs absolues | Toujours en https:// complet |
| Seulement les pages indexables | Pas de pages en noindex ou bloquées par robots |
| URLs canoniques uniquement | Pas les variantes redirigées |
| Mise à jour dynamique | <lastmod> doit refléter les vraies modifications |
Soumettre le sitemap
Dans GSC, menu Indexation → Sitemaps :
- Saisir le chemin :
sitemap.xml - Cliquer sur « Envoyer »
- Attendre quelques heures à quelques jours
Vous verrez ensuite :
- Nombre d'URLs découvertes dans le sitemap
- Nombre d'URLs indexées depuis ce sitemap
- Erreurs éventuelles de parsing
Les sitemaps spécifiques
| Type | Usage |
|---|---|
| Sitemap vidéo | Pour les contenus vidéo avec thumbnail, durée, etc. |
| Sitemap image | Pour enrichir la découverte d'images |
| Sitemap actualités | Spécifique à Google News |
| Sitemap multilingue (hreflang) | Site avec plusieurs langues/régions |
Le fichier robots.txt et GSC
GSC lit votre robots.txt et vous alerte en cas d'incohérence.
Testeur de robots.txt (legacy)
L'ancien outil de test a été retiré en 2024. Désormais, utilisez l'inspection d'URL : si la page est bloquée par robots, GSC vous le dit directement.
Erreurs classiques
# ERREUR : bloque tout le site
User-agent: *
Disallow: /
# CORRECT : autoriser, exclure seulement ce qui doit l'être
User-agent: *
Disallow: /admin/
Disallow: /search?
Sitemap: https://www.example.com/sitemap.xml
Signal d'alerte : après une refonte, toujours vérifier que le robots.txt n'est pas resté en mode « staging » (Disallow: /).
La hiérarchie des signaux d'indexation
En cas de conflit entre plusieurs signaux, Google respecte cet ordre :
graph TD
A[robots.txt bloquant<br/>la plus forte restriction] --> B[Balise noindex<br/>empêche l'indexation]
B --> C[Balise canonical<br/>désigne la version préférée]
C --> D[Sitemap<br/>suggestion]
D --> E[Liens internes et externes<br/>signaux de pertinence]
Piège : si une page est bloquée par robots.txt, Google ne la crawle pas et donc ne voit pas sa balise noindex. Elle peut rester dans l'index sans description (« URL connue mais non crawlée »). Pour désindexer, il faut autoriser le crawl puis mettre noindex.
Cas pratiques typiques
Cas 1 — Une nouvelle page ne ressort pas sur Google
- Inspecter l'URL
- Vérifier si elle est indexée
- Si non indexée : demander l'indexation
- Si « détectée, non explorée » : renforcer les liens internes
- Si « explorée, non indexée » : enrichir significativement le contenu
Cas 2 — Chute brutale du nombre de pages indexées
- Vérifier si un bloc a été ajouté dans le robots.txt
- Vérifier si une migration récente a modifié les URL
- Contrôler les balises canonical (pointent-elles au bon endroit ?)
- Vérifier dans « Pages → Non indexées » quelle raison domine
Cas 3 — Pages dupliquées par paramètres URL
URL avec filtres ou tri : /produits?color=blue&size=M. Google peut les considérer comme dupliquées.
- Utiliser la balise
rel="canonical"vers l'URL propre - OU exclure ces paramètres via le fichier
robots.txt - OU utiliser
noindexsi vraiment pas utile
Résumé
L'indexation est la condition préalable à toute performance SEO. Le rapport « Pages » de GSC vous donne les raisons précises de non-indexation — apprenez à les interpréter. L'outil Inspection d'URL est votre diagnostic en direct, à utiliser au quotidien. Soumettez et maintenez un sitemap propre, surveillez la hiérarchie des signaux (robots.txt, noindex, canonical). Dans le prochain chapitre, nous passons à l'expérience utilisateur : Core Web Vitals et mobile.