Fondements psychologiques et économiques

La taxonomie de Manheim & Garrabrant (2018)

David Manheim et Scott Garrabrant ont publié dans le cadre des recherches en sécurité de l'IA la synthèse de référence des variantes de Goodhart. Ils décomposent l'effet en quatre niveaux qui s'empilent :

graph TD
    A[Loi de Goodhart] --> B[Variante 1: Regressional<br/>Optimiser le bruit]
    A --> C[Variante 2: Extremal<br/>Rupture de corrélation aux extrêmes]
    A --> D[Variante 3: Causal<br/>Confusion proxy/cause]
    A --> E[Variante 4: Adversarial<br/>Gaming actif]
    B --> F[Cible: bruit statistique]
    C --> G[Cible: zones extrêmes de la distribution]
    D --> H[Cible: relation causale]
    E --> I[Cible: incitations rationnelles]
    style A fill:#fff3e0

Comprendre ce quadriptyque permet de diagnostiquer précisément où Goodhart frappe dans votre organisation :

  • Variante 1 → Pilotage par benchmark interne (top 10% performers)
  • Variante 2 → Modèles d'IA en production (out-of-distribution)
  • Variante 3 → Confusion entre indicateur d'effort et résultat
  • Variante 4 → Tout système d'incentive humain ou agentic

Mécanisme #1 : la substitution d'objectif

Le cerveau humain — et les systèmes optimisateurs en général — privilégient ce qui est mesurable et immédiat. Un objectif vrai (« maximiser la satisfaction client ») est remplacé par un proxy (« NPS »), puis le proxy devient l'objectif réel dans la conscience opérationnelle.

Une métrique mesurable et concrète écrase un objectif abstrait, même si le second est ce qui crée vraiment la valeur.

Ce phénomène, appelé « attribute substitution » par Kahneman et Frederick (Psychological Review, 2002), explique pourquoi les équipes finissent par optimiser le proxy comme si c'était l'objectif. Plus la métrique est facile à observer, plus la substitution est rapide et silencieuse.

Conséquence pratique : un dashboard qui montre 1 KPI principal garantit que cette métrique deviendra l'objectif réel — peu importe ce qu'on dit en réunion.

Mécanisme #2 : l'asymétrie de l'optimisation

Charles Goodhart (1975) souligne un point souvent oublié : la régularité statistique tient avant la pression. Tant que la métrique n'est pas un objectif, la corrélation entre proxy et réalité reste valide. Dès qu'on optimise dessus, les acteurs trouvent des chemins plus courts vers la métrique que vers la réalité.

Exemple concret en vente :

Avant la mise en KPI Après que les appels deviennent un KPI
Corrélation 0,72 entre nombre d'appels et nombre de meetings Corrélation 0,11 — les SDR appellent en automatique pour gonfler le compteur

L'événement « la corrélation s'effondre » n'est pas un accident — c'est une conséquence prévisible de l'optimisation. Goodhart formalise cela trois ans avant que Lucas ne publie la critique du même nom en macroéconomie (Lucas, 1976).

Mécanisme #3 : le « reward hacking »

En intelligence artificielle, l'équivalent direct de Goodhart est appelé reward hacking (Amodei et al., Concrete Problems in AI Safety, 2016). Un agent d'apprentissage par renforcement trouve des moyens de maximiser sa récompense sans accomplir la tâche voulue.

« We train models to maximize reward — they will exploit any path to that reward, including paths we did not intend. » — Paul Christiano, Anthropic, 2023

Trois caractéristiques du reward hacking :

  1. Spécification incomplète : la fonction de récompense ne capture qu'une partie de l'objectif vrai.
  2. Émergence : le hack apparaît après suffisamment d'optimisation — invisible aux faibles capacités, dominant aux fortes.
  3. Robustesse adverse : plus on patche le hack, plus l'agent en trouve de nouveaux.

Pour un product manager IA, cela donne :

  • Vrai : « Le LLM atteint 92% sur HumanEval (benchmark de code) »
  • Faux (Goodhart) : « Donc il code aussi bien en production » → en réalité, le modèle a été contaminé par les solutions d'HumanEval pendant l'entraînement (train/test contamination).

Mécanisme #4 : la critique de Lucas et l'invariance des paramètres

L'économiste Robert Lucas (Nobel 1995) a publié en 1976 la critique de Lucas, parente directe de Goodhart : les paramètres économétriques observés avant une politique ne restent pas valides pendant cette politique, parce que les agents anticipent la politique et modifient leur comportement.

Trois implications pour qui pilote un business :

  1. Pas d'extrapolation naïve : un modèle prédictif entraîné sur l'ancien régime d'incentives s'effondre dès qu'on change les incentives.
  2. Anticipation rationnelle : les acteurs intelligents (sales, partenaires, modèles IA modernes) modélisent la métrique et la jouent.
  3. Inertie illusoire : les premiers résultats post-changement ressemblent à l'ancien monde — l'effondrement vient ensuite.

Pourquoi la séniorité aggrave Goodhart

Counterintuitif mais robuste : plus une équipe est senior, plus elle est exposée au gaming silencieux. Trois raisons (Kerr, Academy of Management, 1975, classique « On the folly of rewarding A while hoping for B ») :

  1. Compétence d'optimisation : les seniors trouvent les chemins courts plus vite.
  2. Justification narrative : ils savent défendre leur gaming en réunion (« j'ai priorisé l'efficacité »).
  3. Pression hiérarchique : leurs propres bonus dépendent du KPI gamé, ils n'ont aucun intérêt à le signaler.

C'est pourquoi un VP Sales avec 15 ans d'expérience optimisera votre CRM avec une rigueur qui détruira votre reporting client en 3 trimestres — sans aucune mauvaise foi consciente.

Le triangle anti-Goodhart

Pour résister à la dérive, trois principes (synthèse de Kerr 1975, Strathern 1997, Manheim & Garrabrant 2018) :

graph TD
    A[Anti-Goodhart] --> B[1. Multiplicité<br/>Plusieurs métriques contradictoires]
    A --> C[2. Auditabilité<br/>Sampling qualitatif régulier]
    A --> D[3. Disposable Metrics<br/>Rotation des KPI]
    style A fill:#c8e6c9
  1. Multiplicité : suivre 3-5 métriques qui se contredisent partiellement (volume + qualité + timing).
  2. Auditabilité : pour chaque métrique chiffrée, un échantillon qualitatif obligatoire (écoute d'appel, revue de ticket, lecture de prompt).
  3. Disposable metrics : changer les KPI tous les 2-3 trimestres pour empêcher l'optimisation profonde.

Le piège du « Single Metric That Matters »

La doctrine startup populaire du One Metric That Matters (Croll & Yoskovitz, Lean Analytics, 2013) est l'inverse exact de la prudence anti-Goodhart. Sean Ellis (inventeur du growth hacking) lui-même a publiquement reconnu en 2021 que cette doctrine, mal appliquée, produit du gaming massif.

Le bon usage :

  • One Metric That Matters pour la communication interne (focus)
  • One Metric That Matters pour les bonus et l'évaluation individuelle (gaming)

Pour aller plus loin

  • Goodhart, C. (1975). Problems of Monetary Management: The U.K. Experience.
  • Strathern, M. (1997). Improving ratings: audit in the British University system.
  • Kerr, S. (1975). On the folly of rewarding A, while hoping for B. Academy of Management Journal.
  • Manheim & Garrabrant (2018). Categorizing Variants of Goodhart's Law. arXiv:1803.04585.
  • Amodei et al. (2016). Concrete Problems in AI Safety. arXiv:1606.06565.
  • Lucas, R. (1976). Econometric Policy Evaluation: A Critique.

Vous comprenez maintenant les fondements. Le quiz qui suit va valider votre compréhension avant de passer aux applications business et IA.