Fondements cognitifs et statistiques

La racine cognitive : l'attention sélective et la fluence

Avant d'attaquer la statistique, comprenez d'abord pourquoi le cerveau adore le biais du survivant.

Trois mécanismes du système 1 (Kahneman) le rendent quasi-automatique :

1. L'attention sélective médiatique

Les survivants occupent l'espace médiatique. Les morts disparaissent. Conséquence : votre flux d'information naturel est, par construction, un flux de survivants.

Le PDG qui réussit donne des interviews.
Le founder qui pivote 3 fois et coule ne fait pas la couverture de Forbes.
L'investisseur qui a touché un x100 fait une thread Twitter virale.
L'investisseur qui a tout perdu ferme son compte.

Vous n'entendez pas la moitié de l'histoire — vous entendez la moitié qui a survécu pour parler.

2. La fluence cognitive

Les success stories sont fluides : narratives, héroïques, simples. Les échecs sont complexes, contextuels, ambigus. Le cerveau préfère le simple (loi du moindre effort cognitif, Kahneman 2011) — donc retient les success stories et oublie les nuances.

graph LR
    A[Success story:<br/>« J'ai osé, j'ai gagné »] --> B[Fluence haute]
    C[Échec:<br/>« J'ai osé, conjoncture, timing,<br/>j'ai perdu, complexe »] --> D[Fluence basse]
    B --> E[Mémorisé]
    D --> F[Oublié]
    style E fill:#22c55e,color:#fff
    style F fill:#ef4444,color:#fff

3. Le besoin narratif (causalité illusoire)

Notre cerveau a besoin de raconter une histoire cohérente. Or, une success story est une trame parfaite : un personnage, des obstacles, un dénouement positif. Les échecs n'offrent pas cette structure — donc ils sont rejetés comme « bruit ».

Résultat : on traite les success stories comme des leçons alors qu'elles ne sont que des points d'une distribution.

La racine statistique : la sélection sur la variable dépendante

Maintenant la version mathématique. Le biais du survivant est un cas particulier d'erreur de sélection (selection bias) — étudié dès les années 1940 par les statisticiens.

Sélection sur la variable dépendante

Vous voulez répondre à : « Qu'est-ce qui cause le succès en startup ? » — c'est-à-dire identifier les variables X qui influencent la variable Y (succès / échec).

Erreur classique : étudier uniquement les Y = succès. Vous ne pouvez rien conclure, parce que vous n'avez pas de groupe de comparaison.

graph LR
    A[Variable Y<br/>= Succès] --> B[Échantillon étudié]
    C[Variable Y<br/>= Échec] -.X.-> B
    B --> D[Conclusion sur les X<br/>= invalide]
    style A fill:#22c55e,color:#fff
    style C fill:#ef4444,color:#fff
    style D fill:#fca5a5

En statistique élémentaire, ce design s'appelle « non-experimental sampling on the dependent variable » et il est invalide par construction. Pourtant, c'est le design implicite de 90 % des livres business.

Le bon design : la cohorte

La rigueur exige une cohorte initiale (tous les acteurs au temps T0) et un suivi jusqu'à T1, avec mesure de la survie ET des variables explicatives sur les deux groupes.

Design	Validité	Exemple
N survivants étudiés	❌ Invalide	« 100 fondateurs disent que se lever tôt aide »
N survivants vs N échecs	✅ Valide	« % de fondateurs early-risers chez les survivants vs échecs »
Cohorte longitudinale	✅✅ Idéale	« 1 000 fondateurs suivis 5 ans, X causes Y mesuré »

Quelques cas célèbres pour ancrer

Cas 1 : les bombardiers (déjà vu)

Abraham Wald, 1943. Renforcer là où les avions n'ont pas d'impacts.

Cas 2 : les hedge funds (1992, Brown, Goetzmann, Ibbotson, Ross)

Étudier le rendement moyen des hedge funds en regardant uniquement ceux qui existent aujourd'hui surestime le rendement de 2 à 5 %/an. Les fonds qui ont fermé ne sont plus dans la base.

Quand votre conseiller financier vous montre un rendement moyen, vérifiez si la base inclut les fonds disparus.

Cas 3 : Good to Great (Jim Collins, 2001)

Best-seller mondial : Collins identifie 11 entreprises « stars » qui ont fait le saut « good to great » sur 15 ans, et en tire 7 principes universels.

Critique (Wilkins, 2008 ; Niendorf & Beck, 2008) :

6 des 11 entreprises ont sous-performé le marché dans les 10 années suivantes
Les 7 principes sont non distinguables d'entreprises moyennes
Le design même de l'étude (sélectionner sur le succès passé) est invalide

Résultat : un livre vendu à 4 M+ exemplaires basé sur une méthodologie viciée.

Cas 4 : In Search of Excellence (Peters & Waterman, 1982)

Même méthode, mêmes biais. 5 ans après publication, 14 des 43 « excellent companies » étaient en difficulté financière (BusinessWeek, 1984).

Cas 5 : la « bibliothèque des pavés »

Une boutade qui résume tout : « Les pavés des cathédrales du Moyen Âge ont des inscriptions illisibles parce qu'ils ont mille ans. Donc nos pavés modernes seront aussi illisibles dans mille ans. » — Faux. Les pavés modernes qui survivront mille ans sont peut-être ceux dont l'inscription est la plus durable. On juge l'ancien sur les survivants sans voir les pavés effacés.

Le coefficient de survie : quantifier le biais

Vous pouvez quantifier l'ampleur du biais avec un calcul simple.

Soit :

N₀ = taille de la population initiale
N_s = taille de l'échantillon survivant observé
p_obs = proportion observée d'une caractéristique X chez les survivants
p_vrai = proportion réelle de X dans la population de départ

Si la variable X influence positivement la survie (corrélée à Y = succès), alors :

p_obs > p_vrai

L'écart entre les deux est l'ampleur du biais du survivant sur cette variable. Sans données sur les disparus, on ne peut que majorer la vraie valeur.

Exemple chiffré

Vous regardez 50 fondateurs survivants (entreprises 5+ ans) :

40 / 50 = 80 % se lèvent avant 6h du matin.

Conclusion intuitive : « 80 % des fondateurs survivants se lèvent tôt → se lever tôt aide. »

Erreur. Sur la population initiale de 1 000 fondateurs (5 ans plus tôt), si :

50 % se levaient tôt (= 500)
50 % se levaient tard (= 500)
50 sur 500 « tôt » survivent (10 % de survie)
10 sur 500 « tard » survivent (2 % de survie)

→ On observe alors 40 « tôt » + 10 « tard » = 50 survivants, dont 80 % « tôt ». → Conclusion observable : 80 % des survivants se lèvent tôt → Conclusion vraie : 50 % de la population de départ se levait tôt, et la corrélation tôt ↔ succès est de +8 points de survie (10 % vs 2 %)

Sans la cohorte initiale, on ne peut pas mesurer ces 8 points — on observe juste le 80 %. Et 80 % ≠ causal.

graph LR
    A[1000 fondateurs<br/>T0] --> B[500 tôt]
    A --> C[500 tard]
    B -->|10 % survie| D[50 tôt T+5]
    C -->|2 % survie| E[10 tard T+5]
    D --> F[60 survivants<br/>= 83 % tôt]
    E --> F
    style F fill:#fde047

Sans dénominateur, vous lisez 80 % et vous croyez à un effet massif. Avec le dénominateur, vous voyez un effet réel mais bien plus modeste.

Trois indicateurs pour détecter le biais dans une affirmation

Quand quelqu'un (livre, post LinkedIn, pitch, LLM) vous balance une « leçon » business, posez ces trois questions :

graph TD
    A[Affirmation:<br/>« X cause Y »] --> B{Q1: Quel N ?}
    B -->|Pas de N| Z[Survivorship bias certain]
    B -->|N donné| C{Q2: Échantillon trié ?}
    C -->|Oui| Z
    C -->|Non| D{Q3: Groupe de comparaison ?}
    D -->|Non| Z
    D -->|Oui| E[Probablement OK]
    style Z fill:#ef4444,color:#fff
    style E fill:#22c55e,color:#fff

Question 1 : Sur combien de cas ? (le N) Question 2 : Est-ce que l'échantillon a été filtré ? (par le succès, la médiatisation, la longévité, etc.) Question 3 : A-t-on un groupe de comparaison ? (échecs, non-utilisateurs, contre-factuel)

Trois fois « non » → survivorship bias quasi certain.

La taxonomie du survivorship en business

Type	Exemple
Survivorship temporel	« Cette entreprise existe depuis 50 ans → ses pratiques sont les bonnes »
Survivorship géographique	« Les startups de la Silicon Valley réussissent → il faut y être »
Survivorship par notoriété	« Les CEO qu'on connaît ont X → X cause le succès CEO »
Survivorship par participation	« Les sondés disent X → la population pense X »
Survivorship par auto-sélection	« Mes meilleurs commerciaux disent que la méthode Y marche » (ils ont survécu à la méthode Y)
Survivorship par testimony	« Témoignages clients dit X → clients pensent X » (les insatisfaits ne témoignent pas)
Survivorship algorithmique	« Le LLM dit que la stratégie X est gagnante » (il a appris sur des données filtrées)

Le piège du « confounder caché »

Souvent, le biais du survivant cache une variable confondante (confounder). Exemple :

Affirmation : « Les fondateurs qui sont passés par Y Combinator réussissent mieux. »
Confounder caché : Y Combinator sélectionne des fondateurs déjà très bons. C'est la sélection qui cause le succès, pas l'accélérateur lui-même.

Survivorship + auto-sélection = double biais. À détecter systématiquement.

Résumé

Trois racines cognitives : attention sélective, fluence cognitive, besoin narratif — toutes câblées dans le système 1.
Statistiquement, le biais est une sélection sur la variable dépendante — design invalide.
Le bon design est la cohorte longitudinale avec groupe de comparaison.
Cas emblématiques : bombardiers de Wald, hedge funds, Good to Great, In Search of Excellence.
Coefficient de survie : sans le N de départ, on lit une proportion gonflée.
3 questions à poser : N ? Échantillon trié ? Groupe de comparaison ?
Le biais cache souvent un confounder (auto-sélection, contexte, conjoncture).

Maintenant, place à la pratique : un quiz pour ancrer les fondements, puis on passe à l'application vente, business et IA.