关键词:深度学习、模型、多模态


什么是 CLIP 模型

CLIP 全称 Contrastive Language–Image Pretraining,是一个多模态视觉语言模型。

Contrastive Learning 意为对比学习。

  • 学习的是预测事物是否属于同一类或不属于同一类;
  • 通过最大化相关样本之间的相似性并最小化不相关样本之间的相似性来学习数据表示。

CLIP 中学习的是预测图像和文本是否相似(或同类)。 通过编码器将文本和图像编码成同一 Embedding 空间中的表示,以此对比学习图像和文本之间的相似性。

  • 文本编码通过文本编码器(Text Encoder)实现;
  • 图像编码通过图像编码器(Image Encoder)实现。

能完成什么任务?

  1. 图像分类:计算多个文本描述与图像之间的相似度分数;
  2. 图像搜索:查找与查询文本描述最相似的图像;
  3. ……

CLIP 模型组成

CLIP 是一个抽象模型,文本编码器和图像编码器不局限于特定的模型架构。

常用的文本编码器有 Transformer 架构,常见的图像编码器有 ResNet、ViT 等。

常用的相似性比较方法有余弦相似性等。

cosθ=ABAB\cos\theta = \frac{A\cdot B}{\Vert A \Vert \Vert B \Vert}

References

  1. 经典多模态模型CLIP - 直观且详尽的解释
  2. CLIP - Hugging Face 文档