CLIP 模型基础原理

关键词：深度学习、模型、多模态

什么是 CLIP 模型

CLIP 全称 Contrastive Language–Image Pretraining，是一个多模态视觉语言模型。

Contrastive Learning 意为对比学习。

CLIP 中学习的是预测图像和文本是否相似（或同类）。 通过编码器将文本和图像编码成同一 Embedding 空间中的表示，以此对比学习图像和文本之间的相似性。

能完成什么任务？

CLIP 是一个抽象模型，文本编码器和图像编码器不局限于特定的模型架构。

常用的文本编码器有 Transformer 架构，常见的图像编码器有 ResNet、ViT 等。

常用的相似性比较方法有余弦相似性等。

\cos\theta = \frac{A\cdot B}{\Vert A \Vert \Vert B \Vert}