Définition · La Semaine IA

Multimodalité : un modèle qui voit, lit et entend

7 min de lecture · mis à jour en juin 2026

L'essentiel

La multimodalité, c'est la capacité d'un seul modèle d'IA à traiter plusieurs types de données — texte, image, audio, parfois vidéo — en entrée comme en sortie, au lieu de se limiter au seul texte.

Un modèle multimodal encode tout (image, son, texte) dans la même « langue » interne de tokens, ce qui lui permet de raisonner sur une photo et un texte dans une seule requête.
GPT-4o, Gemini et Claude lisent une image et du texte ; GPT-4o et Gemini gèrent aussi la voix en temps réel. La vidéo native reste l'exception, pas la règle.
Le gain produit n'est pas le gadget « il décrit une image » : c'est supprimer l'étape de transcription manuelle entre le réel (capture d'écran, photo, vocal) et le modèle.
Les mêmes limites qu'un LLM s'appliquent, en pire : il hallucine aussi sur ce qu'il « voit », lit mal les petits chiffres d'un tableau, et ne perçoit rien — il reconnaît des motifs.

Un modèle multimodal, c’est une IA qui ne se contente plus de lire et d’écrire du texte : elle peut aussi regarder une image, écouter un fichier audio, et dans certains cas analyser une vidéo. Tu lui montres une capture d’écran, tu lui parles, tu lui colles une photo de tableau blanc — et elle répond. Cette page explique ce que « multimodal » veut dire vraiment, comment ça marche sous le capot, ce que GPT-4o, Gemini et Claude savent faire ou pas, et où ça déraille. Écrit pour quelqu’un qui n’a jamais ouvert une ligne de code.

La définition, sans le marketing

Multimodalité vient de « modalité » : un type de données. Le texte est une modalité, l’image en est une autre, le son une troisième, la vidéo une quatrième. Un modèle monomodal ne traite qu’un seul type — le LLM classique, par exemple, ne connaît que le texte. Un modèle multimodal en traite plusieurs, en entrée comme en sortie.

La nuance que le marketing écrase : « multimodal » couvre deux choses différentes.

En entrée : ce que tu peux donner au modèle. Une photo + une question écrite, un mémo vocal, un PDF avec des graphiques.
En sortie : ce que le modèle peut produire. Du texte, parfois de la voix, plus rarement une image générée directement.

La plupart des modèles « multimodaux » de 2026 sont surtout multimodaux en entrée : ils digèrent image, texte et son, mais répondent essentiellement en texte (ou en voix). C’est une asymétrie utile à garder en tête quand un commercial te vend « l’IA qui crée tout ».

Comment un modèle « voit » et « entend »

Voici l’idée centrale, et elle est moins magique qu’elle n’en a l’air.

Un modèle multimodal ne possède pas plusieurs cerveaux. Il a un truc qu’il sait faire — manipuler des tokens — et il ramène tout à ça. Une image n’est pas « vue » : elle est découpée en petits carrés (des patches), chaque carré est transformé en une liste de nombres par un encodeur visuel, et ces nombres deviennent des tokens. Pareil pour le son, découpé en fragments temporels. Une fois tout converti en tokens, l’image, la phrase et le clip audio vivent dans le même espace interne, et le modèle fait ce qu’il a toujours fait : prédire la suite.

Un modèle multimodal ne voit pas une image comme toi : il la traduit en tokens et la lit comme du texte. C’est sa force et la source de ses pires erreurs.

Deux conséquences très concrètes, qui ne sont jamais sur la fiche produit :

Une image coûte des tokens. Une capture d’écran haute résolution peut consommer autant de contexte qu’une page de texte. Si tu balances dix photos dans une conversation, tu remplis sa mémoire de travail vite.
Le raisonnement reste textuel. Le modèle ne « comprend » pas l’image au sens où tu la comprends ; il reconnaît des motifs statistiques qu’il a appris à associer à des mots. D’où la suite.

La brique technique qui a rendu ça possible s’appelle CLIP (OpenAI, 2021) : un modèle entraîné à rapprocher les images et leurs légendes dans un même espace, de sorte qu’une photo de chat et le mot « chat » finissent au même endroit. C’est l’ancêtre direct de la vision dans GPT-4o et Gemini.

Qui sait faire quoi : GPT-4o, Gemini, Claude

« Multimodal » n’est pas un interrupteur on/off. Chaque modèle couvre des modalités différentes, et confondre les trois mène à des déceptions.

GPT-4o (OpenAI) — le « o » signifie omni. C’est le plus polyvalent côté entrées : texte, image, voix en temps réel (c’est lui derrière le mode vocal de ChatGPT qui répond en une fraction de seconde). Il lit aussi des documents et des graphiques.
Gemini (Google DeepMind) — multimodal de naissance, conçu dès le départ pour mélanger texte, image, audio et vidéo. C’est le plus en avance sur l’analyse de fichiers vidéo en entrée, et il a son propre mode vocal (Gemini Live).
Claude (Anthropic) — excellent en vision sur documents : lire un PDF, une capture d’écran, un schéma, un tableau. En revanche, pas de mode vocal natif comparable à GPT-4o. C’est un choix : Claude est souvent retenu pour le travail sur de longs documents, pas pour la conversation parlée.

Un piège récurrent : comprendre une image ≠ en générer une. Aucun de ces trois ne dessine lui-même. Quand tu demandes une illustration dans ChatGPT, c’est un modèle de génération d’image séparé qui prend le relais derrière le rideau. La génération native d’images par le LLM lui-même existe, mais reste l’exception.

À quoi ça sert vraiment (les cas d’usage produit)

Le réflexe « regarde, il décrit une photo de chat » est un piège : ce n’est pas là qu’est la valeur. Le vrai gain de la multimodalité, c’est de supprimer l’étape de transcription entre le monde réel et le modèle.

Avant, pour faire traiter une info visuelle par une IA, il fallait d’abord la mettre en mots toi-même. Maintenant, tu lui donnes le réel directement :

Capture d’écran → action. Tu colles le screenshot d’une erreur, d’un dashboard, d’un message ; le modèle lit et explique sans que tu retapes quoi que ce soit.
Photo → données structurées. Un ticket de caisse, une carte de visite, un tableau blanc griffonné : il en extrait le contenu structuré. Très utile en amont d’un pipeline (souvent combiné à des embeddings pour rendre le résultat cherchable).
Voix → conversation fluide. Le mode vocal de GPT-4o ou Gemini permet une interaction parlée naturelle, sans le délai robotique des anciens assistants. C’est ce qui débloque l’usage mains libres, l’accessibilité, l’apprentissage de langues.
Document mixte → résumé. Un PDF qui mêle texte, graphiques et tableaux : le modèle traite l’ensemble d’un coup, là où il fallait avant séparer les images du texte.

Le « so what » pour un founder ou un product manager : la multimodalité transforme des frictions de saisie en simples copier-coller. Ce sont rarement des features spectaculaires, mais elles raccourcissent des workflows entiers — et c’est exactement le genre de brique qu’on combine ensuite dans un agent IA qui enchaîne lire un écran, décider, agir.

Les limites qu’on te cache

Tout ce qui plombe un LLM plombe un modèle multimodal — et la partie visuelle ajoute ses propres pièges.

D’abord, il hallucine aussi sur ce qu’il « voit ». Demande-lui le total d’une colonne de chiffres sur une photo de tableau : il peut te sortir un nombre faux avec le même aplomb que pour une hallucination textuelle. Il lit mal les petits caractères, confond des axes de graphique, invente une valeur manquante qui « sonne » juste. La règle ne change pas : tout chiffre extrait d’une image doit être vérifié à la source.

Ensuite, les angles morts spécifiques :

La résolution et le détail fin. Texte minuscule, capture compressée, photo floue : la qualité de lecture s’effondre. Un OCR classique reste parfois plus fiable pour de l’extraction pure de texte.
Le raisonnement spatial et géométrique. Compter précisément des objets, juger des positions relatives, lire une horloge analogique : longtemps des points faibles, encore irréguliers en 2026.
Le coût. Les images consomment beaucoup de tokens. À grande échelle (analyser des milliers d’images), la facture grimpe vite, ce qui ramène à la question très concrète de l’économie de l’inférence — le sujet de l’édition sur Cerebras et la course à la vitesse face à Nvidia.
La latence en temps réel. La voix « instantanée » impressionne en démo, mais maintenir une conversation parlée fluide reste coûteux et fragile en production.

La ligne de partage est la même que pour tout outil d’IA : délègue la perception et le premier tri, garde la vérification et la décision. Un modèle multimodal est un assistant qui lit vite et regarde mal les détails. Traite-le comme tel.

Pourquoi ça compte si tu construis un produit

Au-delà de la définition, l’enjeu pratique.

La multimodalité élargit la surface d’entrée de ton produit. Tant que ton IA ne mangeait que du texte, tu devais forcer tes utilisateurs à taper. Dès qu’elle accepte image et voix, tu peux capter le réel tel qu’il arrive : la photo prise sur le terrain, le vocal envoyé en marchant, le screenshot d’un bug. C’est moins de friction à l’entrée, donc plus d’usages possibles.

Mais c’est aussi plus de surface d’erreur et plus de coût. Chaque modalité ajoutée multiplie les façons dont le système peut se tromper et la facture en tokens. La bonne discipline n’est pas « activons tout parce que c’est dispo », mais « quelle modalité supprime une vraie friction pour mon utilisateur ». Une app de compta a tout à gagner à lire une photo de facture ; elle n’a aucun besoin d’un mode vocal en temps réel.

Le cadre juste, le même que pour le reste de l’IA générative : un modèle multimodal est réellement utile et structurellement faillible. Il ouvre des entrées qu’aucune interface texte ne permettait, et il se trompe sur les détails visuels avec la même assurance qu’ailleurs. Les deux à la fois. Si tu veux la vue d’ensemble de comment ces briques s’emboîtent, tout est relié sur la page pour comprendre l’IA générative.

Un modèle multimodal ne voit pas une image comme toi : il la traduit en tokens et la lit comme du texte. C'est sa force et la source de ses pires erreurs.

Questions fréquentes

C'est quoi la multimodalité, en une phrase ?

C'est la capacité d'un même modèle d'IA à comprendre et à produire plusieurs formats de données — typiquement texte et image, parfois audio et vidéo — au lieu de ne manipuler que du texte. Tu peux lui montrer une photo et lui poser une question écrite dessus dans la même requête, et il répond en tenant compte des deux.

Quelle est la différence entre un LLM et un modèle multimodal ?

Un LLM « classique » ne traite que du texte. Un modèle multimodal est un LLM étendu : il encode aussi les images, le son et parfois la vidéo sous forme de tokens, puis raisonne dessus avec la même machinerie. La frontière s'efface d'ailleurs : en 2026, les modèles phares (GPT-4o, Gemini, Claude) sont nativement multimodaux, au point que « LLM » et « modèle multimodal » désignent souvent le même produit.

GPT-4o, Gemini et Claude sont-ils tous multimodaux de la même façon ?

Non. Tous lisent du texte et des images. La voix en temps réel est la spécialité de GPT-4o (le « o » est pour « omni ») et de Gemini Live ; Claude n'a pas de mode vocal natif comparable. La vidéo en entrée est la plus rare : Gemini est le plus en avance sur l'analyse de fichiers vidéo. Aucun de ces modèles ne génère d'image lui-même : ils délèguent à un modèle de génération dédié.

Comment un modèle « voit » une image, concrètement ?

Il ne la voit pas comme un œil. Un encodeur découpe l'image en petits carrés (des « patches »), les transforme en vecteurs de nombres, puis en tokens — exactement le même type de jeton que pour le texte. À partir de là, l'image et la phrase qui l'accompagne vivent dans le même espace, et le modèle prédit la suite en tenant compte des deux. Une image « coûte » donc des tokens, comme du texte.

Un modèle multimodal peut-il créer des images ?

Comprendre une image et en fabriquer une sont deux capacités distinctes. La plupart des modèles dits multimodaux (GPT-4o, Gemini, Claude) excellent à lire une image mais ne la dessinent pas eux-mêmes : quand tu demandes une illustration dans ChatGPT, c'est un modèle de génération séparé qui s'en charge derrière. Certains systèmes récents fusionnent les deux, mais ce n'est pas encore la norme.

Peut-on faire confiance à un modèle qui lit un document ou un graphique ?

Avec prudence. Il est excellent pour résumer une capture d'écran ou extraire le texte d'une photo, mais il se trompe régulièrement sur les détails précis : petits chiffres d'un tableau, axes d'un graphique mal lus, total recalculé de travers. Il hallucine sur l'image comme un LLM hallucine sur du texte. Règle : déléguer la lecture et le tri, garder la vérification des chiffres.