Définition · La Semaine IA
Hallucination des LLM : pourquoi ça invente, et comment limiter
Une hallucination, c’est quand une IA te répond avec une date, une citation ou un chiffre qui sonne parfaitement juste — et qui est totalement faux. Pas un bug : le fonctionnement normal d’une machine qui prédit du texte plausible sans aucune notion de vrai. Cette page explique le mécanisme exact, pourquoi le mot « hallucination » est lui-même trompeur, ce que tu peux faire pour réduire le problème (RAG, prompting, vérification) — et la mauvaise nouvelle que les vendeurs taisent : on ne peut pas le ramener à zéro, et c’est démontré.
Le mot est mal choisi (et ça change tout)
« Hallucination » évoque un cerveau qui déraille, une perception erronée du réel. C’est une métaphore flatteuse et fausse. Un LLM n’a pas de perception du réel à fausser. Il ne « croit » rien, ne « voit » rien, ne se « trompe » pas au sens où un humain se trompe.
Ce qu’il fait, c’est une seule chose, en boucle : prédire le fragment de texte (token) le plus probable au vu de ce qui précède. Une réponse vraie et une réponse fausse passent par exactement le même processus. Le modèle ne bascule pas dans un mode « erreur » quand il invente — il génère exactement comme d’habitude. C’est pour ça que l’invention sort avec le même aplomb que la vérité : du point de vue de la machine, il n’y a aucune différence entre les deux.
Garde cette idée, c’est le pivot de toute la page : une hallucination n’est pas une défaillance du système, c’est le système qui marche normalement sur une entrée où le plausible et le vrai divergent. Tant que tu attends d’un LLM qu’il « arrête de se tromper », tu te bats contre sa nature. La bonne question n’est pas « comment l’empêcher d’halluciner » mais « comment encadrer un générateur de plausible pour qu’il serve quand même ».
Le mécanisme : prédire le plausible, pas le vrai
Reprenons le moteur. Un LLM optimise la plausibilité d’une suite de mots, jamais sa vérité — il n’a pas accès à la seconde. Sa boussole, c’est « quelle continuation ressemble le plus au texte humain sur lequel j’ai été entraîné ».
Le problème, c’est qu’une phrase fausse peut être parfaitement plausible. Demande la biographie de quelqu’un que le modèle connaît mal. Statistiquement, un texte humain qui commence une bio ne s’interrompt pas par « je ne sais pas » — il continue. Le modèle fait donc ce que ses données lui ont appris : il continue, avec des dates, un parcours, des titres qui sonnent justes parce qu’ils ressemblent à de vraies bios. Il ne ment pas (mentir suppose connaître la vérité). Il complète.
Deux conséquences directes :
- Pas de voyant rouge interne. Le modèle brut n’a pas de mécanisme fiable pour distinguer ce qu’il sait de ce qu’il ignore. Il ne sait pas qu’il ne sait pas. Les références inventées — un PMID qui n’existe pas, un arrêt de jurisprudence fabriqué, une étude attribuée à un auteur réel mais jamais écrite — sont des continuations probables, donc il les produit.
- L’aplomb est structurel. Un humain hésite quand il n’est pas sûr ; sa voix change. Le LLM n’a pas ce signal. Une réponse incertaine et une réponse solide ont la même surface textuelle confiante. C’est ce qui rend l’hallucination dangereuse : elle ne se signale pas.
Pourquoi le modèle préfère deviner que dire « je ne sais pas »
Voici la partie que la recherche 2025 a clarifiée, et elle est contre-intuitive. Si halluciner est si pénalisant, pourquoi l’entraînement ne pousse-t-il pas les modèles à s’abstenir quand ils ne savent pas ?
Réponse du papier d’OpenAI « Why Language Models Hallucinate » (Kalai, Nachum, Vempala, Zhang, 4 septembre 2025) : parce qu’on les a entraînés et évalués comme des candidats à un QCM. À un examen, deviner rapporte parfois des points ; répondre « je ne sais pas » en rapporte zéro à coup sûr. Les benchmarks qui dominent les classements notent en binaire (juste / faux) et pénalisent l’abstention exactement comme une mauvaise réponse. Conséquence : un modèle optimisé pour ces tests apprend que deviner est statistiquement gagnant. L’abstention honnête est sanctionnée par la métrique.
Le papier reprend aussi une borne mathématique établie par les mêmes chercheurs en 2023 (« Calibrated Language Models Must Hallucinate ») : pour les faits « arbitraires » — ceux qu’on ne peut pas déduire de régularités dans les données d’entraînement, comme la date d’anniversaire d’une personne peu connue — un modèle statistiquement bien calibré doit halluciner à un certain taux. Concrètement, ce taux plancher est au moins égal à la part des faits qui n’apparaissent qu’une seule fois dans l’entraînement (le « singleton rate ») : si 20 % des anniversaires ne sont vus qu’une fois, le modèle est attendu pour en inventer au moins 20 %. Ce n’est pas un défaut d’ingénierie qu’un meilleur entraînement corrigera. C’est une propriété de l’objet.
Le « so what » : la solution proposée n’est pas un meilleur modèle, c’est de changer la façon de noter. Tant que les leaderboards récompensent le devineur sûr de lui plutôt que celui qui sait dire « je ne sais pas », l’incitation à halluciner reste câblée dans le processus. On en a vu un écho direct dans l’édition où une IA réfute un théorème d’Erdős : l’« exploit » ne tient que parce que des humains valident le résultat à la main derrière.
Comment réduire : les leviers qui marchent (et leur prix)
On ne supprime pas l’hallucination, on l’étouffe. Quatre familles de techniques, par ordre de rapport effort/gain.
1. Ancrer la réponse dans des sources réelles (RAG). C’est le levier le plus puissant. Au lieu de laisser le modèle puiser dans sa mémoire floue, on va chercher les passages pertinents dans une base externe et on les colle dans le prompt avant qu’il réponde. Le modèle s’appuie sur du texte réel sous ses yeux, pas sur une reconstruction approximative. Énorme réduction — mais voir la section suivante : le RAG déplace le problème autant qu’il le règle.
2. Prompter pour autoriser le doute. Gratuit et sous-estimé. Si ta consigne dit en substance « réponds à tout », tu réactives l’instinct du candidat au QCM. Dis explicitement : « Si tu n’es pas sûr, réponds je ne sais pas plutôt que de deviner. » Fournis le contexte toi-même quand tu l’as (colle le document) au lieu de compter sur sa mémoire. Sur les tâches factuelles, baisse la température pour réduire la part d’aléatoire dans le choix des tokens.
3. Faire vérifier la sortie. Demander des citations vérifiables, puis les vérifier (un second appel, un outil de recherche, ou un humain). Les modèles à recherche web branchée hallucinent moins sur l’actualité parce qu’ils lisent avant de répondre — sans pour autant devenir infaillibles.
4. Réintroduire l’incertitude à l’entraînement. Hors de portée d’un utilisateur, mais c’est la piste de fond : entraîner et noter les modèles pour qu’ils soient récompensés quand ils s’abstiennent à bon escient. C’est exactement la recommandation du papier OpenAI.
La règle opérationnelle, valable même avec les meilleurs modèles de 2026 : un LLM est un excellent premier brouillon et un piètre dernier mot. Délègue la production, garde la vérification.
Ce qu’on ne peut PAS éliminer (et la preuve par les chiffres)
La promesse « notre IA n’hallucine pas » est un drapeau rouge. Les chiffres l’enterrent.
Sur le résumé de documents — une tâche pourtant ancrée, où la réponse est censée venir uniquement du texte fourni —, le leaderboard Vectara mesure en continu les taux d’hallucination des grands modèles. Sur son jeu de données durci de fin 2025 (documents longs, sujets variés), tous les modèles raisonneurs testés dépassent 10 % : GPT-5, Claude Sonnet 4.5, Grok-4, Gemini-3-Pro (et la variante Grok-4-fast-reasoning grimpe à 20,2 %). Et c’est sur une tâche où le modèle a la source sous le nez. Sur de la génération libre, c’est pire.
Côté RAG, même verdict. L’étude Stanford de 2024 sur les outils juridiques RAG (Lexis+ AI, Westlaw AI-Assisted Research) a mesuré plus de 17 % d’hallucinations pour le meilleur produit (Lexis+) et près de 33 % pour Westlaw — des outils commerciaux haut de gamme vendus comme « hallucination-free ». Le RAG est un garde-fou solide, pas un vaccin : il échoue quand le retrieval ramène le mauvais passage, ou quand le modèle s’écarte du contexte malgré tout.
Ajoute à ça la preuve théorique (taux d’hallucination irréductible sur les faits arbitraires pour un modèle calibré) et la conclusion est nette : le zéro hallucination n’existe pas, ni en théorie ni en pratique. Tout système qui en dépend doit intégrer un taux résiduel par conception et garder un humain sur les décisions critiques.
Pourquoi ça devient un vrai danger avec les agents
Tant qu’un LLM se contente de produire du texte que tu relis, une hallucination coûte une relecture. Le calcul change radicalement avec un agent IA — un modèle autorisé à enchaîner des actions (appeler une API, exécuter du code, envoyer, payer, supprimer) sans validation humaine à chaque étape.
Là, l’hallucination ne reste pas du texte : elle déclenche un effet de bord. Une référence inventée devient une requête lancée sur de mauvaises données ; une étape de raisonnement fausse devient une action irréversible. Et comme l’agent boucle, une petite erreur initiale se propage et s’amplifie sur les tâches longues (compounding error). C’est la combinaison toxique : « se trompe parfois » + « agit sans demander ».
La parade n’est pas d’espérer un modèle qui n’hallucine plus — on vient de voir qu’il n’existe pas. C’est d’architecturer autour du taux résiduel : confirmation humaine sur les actions irréversibles, périmètre d’outils restreint, budget d’étapes plafonné, traçabilité. La maturité 2026 sur l’IA, ce n’est pas faire confiance au modèle. C’est concevoir des systèmes qui restent sûrs en supposant qu’il se trompera. Pour le reste du paysage — agents, coûts, infra —, le guide complet pour comprendre l’IA déroule le fil, et l’édition sur les trois patrons d’IA qui se contredisent montre que même les labos ne s’accordent pas sur le degré de confiance à leur accorder.
Un LLM est un excellent premier brouillon et un piètre dernier mot.
Questions fréquentes
C'est quoi une hallucination en IA, en une phrase ?
C'est une réponse fausse mais plausible produite par un modèle de langage avec autant d'assurance qu'une réponse vraie : date inventée, citation qui n'existe pas, source fabriquée, chiffre crédible mais faux. Le terme est trompeur — le modèle ne « voit » rien, il génère du texte statistiquement vraisemblable sans vérifier s'il correspond au réel.
Peut-on éliminer complètement les hallucinations d'un LLM ?
Non, et ce n'est pas un avis : c'est démontré. Les travaux de Kalai et Vempala (« Calibrated Language Models Must Hallucinate », 2023, repris dans le papier OpenAI de septembre 2025) prouvent que pour les faits « arbitraires » impossibles à déduire des données d'entraînement, un modèle bien calibré doit halluciner à un certain taux plancher. On réduit fortement le problème (RAG, prompting, vérification), on ne le ramène pas à zéro. Tout système sérieux suppose un taux résiduel et garde un humain dans la boucle sur les sujets critiques.
Pourquoi ChatGPT invente des sources, des dates ou des références juridiques ?
Parce qu'il prédit la suite de texte la plus plausible, pas la plus vraie. Une référence inventée mais bien formée (un nom d'auteur crédible, une date cohérente, un numéro qui « ressemble » à un vrai) est statistiquement probable, donc le modèle la produit avec aplomb. Il n'a aucun mécanisme interne fiable pour distinguer ce qu'il sait de ce qu'il ignore. Vérifie toujours chiffres, dates et citations à la source primaire.
Le RAG supprime-t-il les hallucinations ?
Il les réduit, il ne les supprime pas. En injectant des passages réels dans le prompt, le RAG ancre la réponse dans des sources — mais l'étude Stanford de 2024 sur les outils juridiques RAG a mesuré plus de 17 % d'hallucinations sur Lexis+ AI et près de 33 % sur Westlaw, des produits qui se vendaient « hallucination-free ». Deux causes : un retrieval qui ramène le mauvais passage, ou un modèle qui s'écarte du contexte fourni. Affiche les sources et laisse l'utilisateur vérifier.
Un modèle « raisonneur » hallucine-t-il moins ?
Pas mécaniquement, souvent l'inverse. Sur le benchmark Vectara de fin 2025 (résumé de documents, une tâche pourtant ancrée), tous les modèles raisonneurs testés — GPT-5, Claude Sonnet 4.5, Grok-4, Gemini-3-Pro — dépassaient 10 % d'hallucination, certaines variantes rapides montant à plus de 20 %. Produire des étapes de raisonnement intermédiaires aide sur la logique, mais peut pousser le modèle à ajouter des inférences qui débordent de la source. Méfie-toi du marketing qui présente le raisonnement comme un antidote.
Comment réduire les hallucinations dans mes prompts, concrètement ?
Quatre leviers gratuits : (1) autorise explicitement le « je ne sais pas » dans ta consigne, sinon le modèle est entraîné à deviner ; (2) fournis le contexte toi-même (colle le document) plutôt que de compter sur sa mémoire ; (3) demande des citations vérifiables et traite-les comme suspectes par défaut ; (4) baisse la température sur les tâches factuelles. Aucun de ces leviers n'est magique, mais cumulés ils coupent la majorité des inventions évitables.
Sources
- Kalai, Nachum, Vempala, Zhang — « Why Language Models Hallucinate », OpenAI, 4 septembre 2025 (arXiv:2509.04664)
- Kalai & Vempala — « Calibrated Language Models Must Hallucinate », 2023 (arXiv:2311.14648) — borne théorique sur le taux plancher
- Vectara — Hallucination Leaderboard (HHEM), classement des LLM sur le résumé de documents
- Magesh et al., « Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools », Stanford, mai 2024
- Stanford HAI, « AI on Trial: Legal Models Hallucinate in 1 out of 6 (or More) Benchmarking Queries », 2024
- Lewis et al., « Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks », NeurIPS 2020 (arXiv:2005.11401)