Multimodalité

La multimodalité désigne la capacité d'un modèle d'intelligence artificielle à comprendre et traiter plusieurs types de contenus, et non le seul texte. Un modèle multimodal peut, par exemple, analyser une image accompagnée d'une question écrite, ou lire un document mêlant texte et schémas.

Comment ça fonctionne

Un LLM classique ne traite que du texte. Un modèle multimodal ajoute des mécanismes capables d'interpréter d'autres formats, comme les images. En interne, ces contenus sont convertis en une représentation que le modèle peut manipuler, à la manière des tokens pour le texte.

Concrètement, vous pouvez fournir à Claude une photo, une capture d'écran ou un document visuel, puis poser une question dessus. Le modèle combine les informations issues de l'image et de votre consigne pour formuler sa réponse.

Pourquoi c'est important

La multimodalité élargit considérablement le champ d'usage de l'IA. De nombreuses informations du monde réel ne sont pas du texte pur : graphiques, photos de documents, captures d'écran, tableaux. Pouvoir les traiter directement évite de les retranscrire à la main et ouvre de nouveaux cas d'usage.

Vérifier les capacités

Les formats pris en charge dépendent du modèle et de l'offre utilisés. Pour connaître précisément ce que Claude accepte, reportez-vous au site officiel d'Anthropic.

Exemple

Supposons que vous photographiez un graphique imprimé dans un rapport papier. Avec un modèle multimodal, vous pouvez envoyer cette photo et demander : « Quelle est la tendance principale de ce graphique ? » Claude interprète l'image et répond, sans que vous ayez à saisir les données vous-même.

La multimodalité est l'une des évolutions majeures des modèles récents conçus par Anthropic. Pour découvrir les usages quotidiens de Claude, y compris à partir de contenus variés, commencez par le cours Claude 101.

Comment ça fonctionne

Pourquoi c'est important

Exemple

Termes liés