Définition · La Semaine IA
LLM (large language model) : c'est quoi, expliqué sans jargon
Un LLM, c’est le moteur derrière ChatGPT, Claude et Gemini. Pas une intelligence, pas une base de données, pas un cerveau : une machine statistique entraînée à deviner le mot suivant. Cette page explique ce que ça veut dire concrètement, pourquoi ça marche aussi bien, et pourquoi ça invente parfois des trucs faux avec un aplomb total. Écrit pour quelqu’un qui n’a jamais ouvert une ligne de code.
La définition en une phrase (et pourquoi elle compte)
LLM veut dire large language model, en français « grand modèle de langage ». Décortiquons les trois mots, parce que chacun porte un piège.
- Language (langage) : il ne manipule que du texte. Du langage qui rentre, du langage qui sort. Il ne « voit » pas le monde, il a lu des descriptions du monde.
- Model (modèle) : c’est une représentation mathématique. Comme une carte routière n’est pas la route, le modèle n’est pas la connaissance — c’est une approximation statistique de la façon dont les mots s’enchaînent.
- Large (grand) : grand par deux mesures. Le volume de texte avalé à l’entraînement (de l’ordre de milliers de milliards de mots) et le nombre de paramètres, ces réglages internes ajustés pendant l’apprentissage. Les modèles récents en comptent des dizaines à des centaines de milliards.
La formulation honnête, celle que les labos évitent dans leur marketing : un LLM est un système qui prédit la suite d’un texte. Tout le reste — répondre à une question, écrire un mail, coder — est une conséquence de cette unique compétence. Garde cette phrase en tête, elle explique à la fois les prouesses et les ratés.
Comment ça marche vraiment : la prédiction de tokens
Voici le cœur du truc, et il est plus simple qu’on ne le vend.
Un LLM ne lit pas des mots. Il lit des tokens : des fragments de texte. Un token, c’est en moyenne un bout de mot — souvent quelques caractères. En anglais, un mot courant fait à peu près un token ; en français, le découpage est plus gourmand et beaucoup de mots se cassent en deux ou trois tokens. « le » fait un token ; « anticonstitutionnellement » en fait plusieurs. Le modèle découpe tout ce que tu écris en tokens, puis joue à un seul jeu, en boucle :
Étant donné tous les tokens précédents, quel est le token suivant le plus probable ?
C’est tout. Tu écris « La capitale de la France est », le modèle calcule que le token le plus probable ensuite est « Paris ». Il le pose, puis recommence avec « Paris » ajouté au contexte, et prédit le suivant. Token après token, il génère sa réponse comme une autocomplétion sous stéroïdes.
D’où vient cette capacité à prédire ? De l’entraînement. On lui a montré une fraction colossale du texte humain disponible — Wikipédia, livres, code, forums — et à chaque passage, on lui a caché le mot suivant en lui demandant de le deviner. Faux ? On corrige un peu les paramètres. Répété des milliards de fois, ce dressage finit par encoder la grammaire, des faits, des styles, des raisonnements. Pas parce qu’on les lui a appris explicitement, mais parce que bien prédire le mot suivant force à modéliser tout ce qui le détermine.
La rupture technique qui a tout débloqué s’appelle le Transformer, une architecture introduite par des chercheurs de Google en 2017 dans l’article Attention Is All You Need. Son mécanisme d’« attention » permet au modèle de pondérer quels mots du contexte comptent pour prédire le suivant — c’est lui qui a rendu les LLM modernes possibles.
Le « so what » pour toi : quand un LLM te répond, il ne va pas chercher une réponse stockée quelque part. Il fabrique la réponse token par token, en suivant les probabilités. C’est pour ça qu’il est si fluide. Et c’est exactement pour ça qu’il peut être confiant et faux en même temps.
Pourquoi il invente des trucs faux (l’hallucination)
Le défaut le plus important à comprendre, parce qu’il n’est pas un bug : c’est le fonctionnement normal.
Un LLM optimise la plausibilité, pas la vérité. Sa seule boussole est « quelle suite de mots semble la plus naturelle ». Or une phrase fausse peut être parfaitement plausible. Quand tu demandes la biographie de quelqu’un que le modèle connaît mal, il a tendance à ne pas dire « je ne sais pas » — ce serait statistiquement rare dans un texte humain. Il génère une bio crédible, avec des dates inventées qui sonnent justes. C’est ce qu’on appelle une hallucination.
Un LLM brut n’a pas de mécanisme fiable pour distinguer ce qu’il sait de ce qu’il ignore. Il n’y a pas de petit voyant rouge interne. Les techniques récentes (entraînement à exprimer l’incertitude, accès à une recherche web, citations forcées) réduisent le problème sans l’éliminer.
La règle opérationnelle, valable même avec les meilleurs modèles de 2026 : tout chiffre, date, citation, référence juridique ou nom propre sorti d’un LLM doit être vérifié à la source. Le modèle est un excellent premier brouillon et un piètre dernier mot. On a vu dans l’édition où une IA réfute un théorème d’Erdős que même les « exploits » mathématiques d’IA tiennent uniquement parce que des humains valident derrière à la main.
Ce qu’un LLM fait très bien (et ce qu’il fait mal)
Trier les usages selon le mécanisme, pas selon le hype, évite 90 % des déceptions.
Là où il excelle — tout ce qui est transformation de texte que tu peux relire vite :
- Reformuler, résumer, traduire, changer le ton d’un message.
- Générer un premier jet : email, plan d’article, ébauche de code, brainstorming.
- Extraire et structurer de l’info depuis un texte que tu lui fournis (parce que la réponse est sous ses yeux, pas dans sa mémoire floue).
- Expliquer un concept à différents niveaux, jouer un rôle, débloquer une page blanche.
Là où il dérape :
- Les faits précis et vérifiables (chiffres, dates, sources) — voir l’hallucination ci-dessus.
- Le calcul exact et la logique à étapes multiples : il simule le raisonnement en prédisant à quoi ressemble un raisonnement. Souvent juste, parfois faux avec assurance. Les modèles dits « raisonneurs », qui produisent des étapes intermédiaires avant de répondre, améliorent ça, sans le garantir.
- L’actualité après sa date d’entraînement : son savoir est figé à une date butoir (la knowledge cutoff), sauf s’il a un outil de recherche branché.
- Compter, trier rigoureusement, respecter des contraintes strictes : un programme classique écrase un LLM sur ces tâches déterministes.
La ligne de partage est nette : délègue le brouillon et la mise en forme, garde la vérification et la décision.
GPT, Claude, Gemini, Llama : qui est qui
« LLM » est la catégorie. Les noms ci-dessous sont les produits.
- GPT (OpenAI) — la série derrière ChatGPT. GPT veut dire Generative Pre-trained Transformer : génératif (il produit du texte), pré-entraîné (le dressage massif décrit plus haut), Transformer (l’architecture). C’est ChatGPT, propulsé par GPT, qui a fait exploser le grand public fin 2022.
- Claude (Anthropic) — la famille que tu lis peut-être en ce moment ; réputée pour les textes longs et le travail sur de gros documents.
- Gemini (Google DeepMind) — multimodal de naissance (texte, image, audio, vidéo dans le même modèle), intégré à l’écosystème Google.
- Llama (Meta) et Mistral (français, Paris) — des modèles à poids ouverts : tu peux télécharger les paramètres du modèle et le faire tourner toi-même, là où GPT, Claude et Gemini ne s’utilisent qu’à travers une API ou une appli. La distinction ouvert/fermé est l’un des grands axes politiques du secteur.
Deux nuances qui font la différence quand on choisit un modèle :
- Multimodal : beaucoup de modèles récents ne se limitent plus au texte. Ils encodent aussi images, sons et parfois vidéo sous forme de tokens, et raisonnent dessus. Le « language » de LLM est devenu un peu étroit.
- Agents : la mode 2026 n’est plus le chatbot mais l’agent — un LLM qu’on autorise à enchaîner des actions (chercher sur le web, lire des fichiers, appeler des outils) pour accomplir une tâche en plusieurs étapes. On en parlait dans l’édition sur les trois patrons d’IA qui se contredisent : tous les labos ont pivoté vers ce mot la même semaine.
Pourquoi ça change le travail (le vrai sujet)
Au-delà de la définition, l’enjeu pratique pour un non-ingénieur.
Un LLM ne remplace pas une compétence, il abaisse le coût du premier jet sur tout ce qui passe par du texte. La slide, le mail, le bout de code, le résumé de réunion : ce qui prenait une heure prend dix minutes — à condition de relire. C’est un déplacement, pas une disparition. La valeur migre de produire vers juger : savoir poser la bonne question (le prompt), repérer ce qui sonne faux, décider quoi garder.
Le piège symétrique des deux discours ambiants : « ça pense comme nous » (faux, c’est de la prédiction statistique) et « c’est juste un perroquet inutile » (faux aussi, l’outil transforme déjà des métiers entiers). La position juste est inconfortable : un assistant réellement puissant et structurellement faillible. Les deux à la fois.
Si le sujet du travail à l’ère de l’IA t’intéresse, on a creusé le cas concret de l’IA qui fabrique tes slides, et celui des modèles qui deviennent plus rapides que le matériel Nvidia — l’infra qui rend tout ça économiquement viable.
Le modèle est un excellent premier brouillon et un piètre dernier mot.
Questions fréquentes
Quelle est la différence entre un LLM et l'intelligence artificielle ?
L'IA est le grand ensemble de toutes les techniques qui font faire à une machine des tâches « intelligentes » (vision, jeu d'échecs, recommandation, conduite). Un LLM est un type particulier d'IA, spécialisé dans le langage et fondé sur la prédiction de tokens. Tout LLM est une IA ; l'immense majorité des systèmes d'IA ne sont pas des LLM.
Un LLM comprend-il vraiment ce qu'il dit ?
Non, pas au sens humain. Il modélise des régularités statistiques du langage assez finement pour produire des réponses cohérentes et souvent justes, mais il n'a ni intention, ni conscience, ni vérification interne du vrai. Il optimise la plausibilité d'une suite de mots, pas la vérité. C'est ce qui explique les hallucinations.
Pourquoi ChatGPT invente parfois des sources ou des dates fausses ?
Parce qu'il génère du texte token par token selon ce qui semble plausible, pas en consultant une base de faits. Une référence inventée mais crédible est statistiquement « probable », donc le modèle peut la produire avec aplomb. Toujours vérifier chiffres, dates et citations à la source primaire avant de s'en servir.
C'est quoi un token, en pratique ?
Un fragment de texte que le modèle traite comme une unité : souvent quelques caractères, soit un mot court entier, soit un morceau de mot plus long. En français, beaucoup de mots se découpent en deux ou trois tokens. Le modèle découpe ton texte en tokens, puis génère sa réponse un token à la fois. La longueur des conversations et le prix des API se comptent d'ailleurs en tokens.
GPT et Claude sont-ils des LLM différents ou la même chose ?
Ce sont deux familles de LLM concurrentes, développées par deux entreprises différentes — GPT par OpenAI, Claude par Anthropic. Même catégorie technique (grands modèles de langage à base de Transformer), entraînements et caractères distincts. Claude est souvent choisi pour les longs documents, GPT pour sa diffusion grand public via ChatGPT.
Faut-il savoir coder pour utiliser un LLM ?
Non. ChatGPT, Claude et Gemini s'utilisent en langage naturel, comme une conversation. La compétence qui compte n'est pas le code mais le cadrage : formuler une demande précise, fournir le bon contexte, et surtout relire de façon critique. Coder devient utile seulement pour automatiser ou intégrer un LLM dans un produit via son API.
Sources
- Vaswani et al., « Attention Is All You Need », l'article fondateur du Transformer (Google, 2017)
- OpenAI — « An OpenAI model has disproved a central conjecture in discrete geometry » (mai 2026)
- Anthropic — présentation de la famille de modèles Claude
- Google DeepMind — présentation de Gemini
- Bommasani et al. (Stanford CRFM) — « On the Opportunities and Risks of Foundation Models »