IA, prompts et base rate : neutraliser le biais dans vos LLM

Pourquoi l'IA est structurellement survivorship-biased

Les grands modèles de langage (LLM) — GPT-4, Claude, Gemini — sont entraînés sur d'énormes corpus textuels publics : web, livres, forums, papiers. Ce corpus est, par construction, gangrené par le biais du survivant :

graph TD
    A[Web public + livres + médias] --> B[Données accessibles publiquement]
    B --> C[Articles de presse,<br/>biographies de CEO,<br/>études de cas business<br/>blogs success stories]
    B --> D[Très peu de:<br/>memoirs d'échecs,<br/>post-mortems honnêtes,<br/>data privée d'échec]
    C --> E[Training set LLM<br/>= massivement survivant]
    D -.X.-> E
    style E fill:#ef4444,color:#fff

Trois mécanismes amplificateurs :

1. Biais de publication

Les startups qui exitent à 100 M$ publient des post-mortems triomphaux. Les startups qui ferment publient rarement (founders épuisés, embarras, pression légale). Asymétrie : ratio publication succès / échec ≈ 50:1.

2. Biais de citation

Les success stories sont citées 100× plus que les échecs (Bommasani et al., 2021). Dans un LLM entraîné sur du texte pondéré par la fréquence, cela écrase littéralement le signal des échecs.

3. Biais de génération

Au moment de générer, les LLM sortent en priorité les patterns les plus représentés dans leur training. Donc :

  • Question : « Comment réussir un SaaS B2B ? »
  • Réponse LLM : un mélange des success stories les plus citées (Stripe, Notion, Slack, HubSpot…)
  • Ce qui est invisible : les 100 000 SaaS B2B qui ont essayé exactement ces playbooks et ont disparu.

Quand un LLM répond à une question stratégique, il sort un consensus de survivants médiatisés, pas un consensus de terrain.

Le test simple : demandez la base rate à votre IA

Posez à votre LLM cette question — et observez la réponse spontanée :

« Quelle est la probabilité qu'un SaaS B2B avec une stratégie product-led growth atteigne 1 M$ d'ARR en 3 ans ? »

Sans pilotage, vous obtiendrez quelque chose comme : « Avec une bonne exécution, la stratégie PLG offre de fortes chances de succès. Des exemples comme Notion, Linear et Loom montrent que c'est possible. »

C'est une réponse survivante. Pas une réponse statistique.

La version pilotée

Reformulez avec une injonction base rate explicite :

« Quelle est la probabilité qu'un SaaS B2B avec une stratégie product-led growth atteigne 1 M$ d'ARR en 3 ans ? Réponds avec : 1) un chiffre estimé de la base rate sur la cohorte 2018-2023, 2) la source ou la méthode d'estimation, 3) une mention explicite de l'incertitude liée au biais du survivant dans tes données d'entraînement. »

Réponse attendue : ~3-7 % de cohorte atteint 1 M$ ARR en 3 ans, avec une grosse incertitude liée à la rareté des données publiques sur les SaaS échoués.

Sans injonction, le LLM vous donne une narration de survivants. Avec injonction, il vous donne une estimation proprement encadrée.

Cinq patterns de prompt anti-survivorship

Pattern 1 : « Show me the failures »

« Pour la stratégie X que je viens de décrire, donne-moi 5 cas d'entreprises qui ont essayé exactement cette approche et ont échoué. Précise pour chacune : ce qu'elles ont fait, pourquoi ça n'a pas marché, et le contexte. »

Effet : force le LLM à plonger dans la moitié de son training set qu'il sous-pondère naturellement.

Pattern 2 : « Base rate first »

« Avant de répondre à ma question stratégique, donne-moi d'abord ta meilleure estimation de la base rate de succès pour ce type de tentative. Puis, en sachant cette base rate, propose une réponse pondérée. »

Effet : transforme l'IA en outil statistique avant qu'elle ne devienne outil narratif.

Pattern 3 : « Devil's advocate sur la success story »

« Voici une success story de [Stripe / Notion / Airbnb]. Pour chaque facteur de succès cité, dis-moi : (a) à quel point ce facteur est-il réellement causal vs. simplement co-occurrent ; (b) quelle entreprise a fait pareil et a échoué. »

Effet : déconstruit l'illusion narrative point par point.

Pattern 4 : « Cohorte virtuelle »

« Imagine une cohorte de 100 startups démarrant en 2020 avec la stratégie X. À T+5 ans, distribue cette cohorte en 4 segments : exit > 100 M$ / exit < 50 M$ / encore actives sans levée / fermées. Estime un pourcentage pour chaque segment. »

Effet : force le LLM à produire une distribution complète, pas un point unique de réussite.

Pattern 5 : « Stress-test du conseil »

« Tu m'as conseillé de faire X. Maintenant, joue le rôle d'un coach business sceptique qui me dit pourquoi je devrais probablement NE PAS faire X. Donne-moi 5 arguments contre, basés sur des cas réels d'échec. »

Effet : antidote frontal à la complaisance narrative du LLM.

Le system prompt anti-survivorship

Pour un usage quotidien (Claude / GPT-4 / autres), ajoutez ce préfixe à votre system prompt :

« Sur toute question stratégique business : avant de répondre, fais ressortir explicitement (a) la base rate de succès dans la population pertinente, (b) au moins 2 cas d'échec contre 1 cas de succès, (c) l'incertitude liée au biais du survivant dans tes données d'entraînement. Ne raconte pas une success story comme si elle était un mode opératoire généralisable. »

Effet sur 4-6 semaines d'usage : votre propre raisonnement stratégique change. L'IA devient un dispositif externe anti-biais — exactement ce que Kahneman recommande.

Cas d'usage avancé : automatiser la cohort analysis

Si vous avez accès aux capacités de code/data du LLM (Code Interpreter, Claude Artifacts, etc.), faites-lui construire une cohort analysis virtuelle :

Charge ce CSV de mes clients (ou simule des données plausibles).
Construit une cohort analysis :
- Cohorte par mois de signup
- Survie à M+3, M+6, M+12
- Caractéristiques médianes par segment (top survivor, average, churner)
- Identifie les variables qui distinguent les survivants des churners
- IMPORTANT: ne te base pas uniquement sur les survivants pour conclure
- Sortie : un tableau + une interprétation des limites de l'analyse

Résultat : vous obtenez une vraie cohort analysis dont les conclusions intègrent les churners — pas une « lesson » construite sur les survivants seuls.

Le piège : LLM + RAG sur vos propres données

Une erreur fréquente : connecter votre LLM à un RAG (Retrieval-Augmented Generation) sur vos cas clients réussis uniquement (parce que ce sont eux qui ont signé un témoignage). Le LLM devient alors doublement survivorship-biased : training de base + RAG biaisé.

Antidote : forcer le RAG à inclure également :

  • Tickets support négatifs
  • Clients churnés (et leurs raisons documentées)
  • Deals perdus en pipeline (et le motif)
  • Avis 1-2 étoiles sur G2, Trustpilot, etc.

Avec ce contexte équilibré, le LLM peut produire des analyses représentatives, pas des analyses « gagnant ».

Tableau récap : quelle technique pour quel cas

Contexte d'usage Pattern recommandé
Brief stratégique sur un pivot Pattern 2 (Base rate first) + Pattern 4 (Cohorte virtuelle)
Étude de la stratégie d'un concurrent Pattern 3 (Devil's advocate)
Aide à la décision sur une embauche clé Pattern 1 (Show me the failures)
Préparation d'un pitch investisseur Pattern 5 (Stress-test)
Usage quotidien généralisé System prompt anti-survivorship
Analyse interne sur clients/produit RAG équilibré + Pattern 4

Une démarche éthique : honnêteté épistémique

Au-delà de la technique, c'est un choix éthique : vouloir savoir ce qui est vrai, pas juste ce qui est mémorable.

Les patterns ci-dessus sont inconfortables à utiliser parce qu'ils produisent des réponses moins « inspirantes » : moins de héros, plus d'incertitude, plus de cas négatifs. C'est précisément ce qui les rend valides.

En matière de prise de décision business, l'inconfort statistique vaut mieux que le confort narratif.

Quelques limites à connaître

  • Les LLMs estiment la base rate, ils ne la mesurent pas. Vos vraies données internes restent meilleures.
  • Pour les niches très spécifiques (B2B SaaS micro-vertical, marchés émergents…), la base rate du LLM est très bruitée.
  • Les LLM les plus récents (Claude 3.5+, GPT-4o+) sont meilleurs pour le pattern 1 que les précédents, mais ils restent insuffisants sans pilotage explicite.
  • Toujours vérifier les chiffres produits — un LLM peut inventer une base rate plausible. Demandez la source ou la méthode.

Résumé

  • Les LLM sont structurellement survivorship-biased par leur training set (publication, citation, génération).
  • Test simple : poser une question stratégique et voir si la réponse contient une base rate + des cas d'échec. Si non → pilotez.
  • 5 patterns de prompts anti-survivorship : Show me failures / Base rate first / Devil's advocate / Cohorte virtuelle / Stress-test.
  • System prompt anti-survivorship pour usage quotidien.
  • RAG équilibré : intégrer tickets, churners, deals perdus, avis négatifs.
  • Ethique : préférer la rigueur statistique inconfortable à la narration confortable.

Dans le chapitre suivant, on synthétise tout : un playbook entrepreneurial complet pour intégrer le biais du survivant dans votre stratégie, vos décisions, vos communications.