AI Blog

by Michele Laurelli

Back to Glossary

Multimodal AI

/ˌmʌltɪˈmoʊdəl/

Concept

Definition

AI systems that can process and relate information from multiple modalities like text, images, audio, and video.

Multimodal models learn joint representations across modalities. Examples include CLIP (vision-language), Flamingo (visual question answering), and GPT-4V (vision understanding).

Examples

CLIP matching images to text

GPT-4V describing images

Image captioning systems

Related Terms

CLIP (Contrastive Language-Image Pre-training)

A multimodal model trained to understand relationships between images and text.

Michele Laurelli - AI Research & Engineering