Glossaire
Multimodalité
La multimodalité est la capacité d'un modèle d'IA à traiter plusieurs types de contenus, comme le texte et les images.
La multimodalité désigne la capacité d'un modèle d'intelligence artificielle à comprendre et traiter plusieurs types de contenus, et non le seul texte. Un modèle multimodal peut, par exemple, analyser une image accompagnée d'une question écrite, ou lire un document mêlant texte et schémas.
Comment ça fonctionne
Un LLM classique ne traite que du texte. Un modèle multimodal ajoute des mécanismes capables d'interpréter d'autres formats, comme les images. En interne, ces contenus sont convertis en une représentation que le modèle peut manipuler, à la manière des tokens pour le texte.
Concrètement, vous pouvez fournir à Claude une photo, une capture d'écran ou un document visuel, puis poser une question dessus. Le modèle combine les informations issues de l'image et de votre consigne pour formuler sa réponse.
Pourquoi c'est important
La multimodalité élargit considérablement le champ d'usage de l'IA. De nombreuses informations du monde réel ne sont pas du texte pur : graphiques, photos de documents, captures d'écran, tableaux. Pouvoir les traiter directement évite de les retranscrire à la main et ouvre de nouveaux cas d'usage.
Vérifier les capacités
Les formats pris en charge dépendent du modèle et de l'offre utilisés. Pour connaître précisément ce que Claude accepte, reportez-vous au site officiel d'Anthropic.
Exemple
Supposons que vous photographiez un graphique imprimé dans un rapport papier. Avec un modèle multimodal, vous pouvez envoyer cette photo et demander : « Quelle est la tendance principale de ce graphique ? » Claude interprète l'image et répond, sans que vous ayez à saisir les données vous-même.
La multimodalité est l'une des évolutions majeures des modèles récents conçus par Anthropic. Pour découvrir les usages quotidiens de Claude, y compris à partir de contenus variés, commencez par le cours Claude 101.
Termes liés
- TermeLLM (grand modèle de langage)Un LLM est un modèle d'IA entraîné sur d'immenses quantités de texte pour comprendre et générer du langage naturel.
- TermeTokenUn token est une petite unité de texte que les modèles de langage utilisent pour lire et générer du contenu.
- TermeAnthropicAnthropic est l'entreprise d'intelligence artificielle qui développe Claude, en mettant l'accent sur la sécurité de l'IA.