clip: 比你想的要重要

前言

自去年开始就开始关注多模态领域，一方面工作场景内容的需要；一方面的确是非常感兴趣。大致从多模态预训练和多模态融合两个角度去研究。从目前的趋势来看，接下来不出意外应该是多模态领域尤其是多模态预训练领域的主场。这就引出我今天想讲的内容： CLIP，一个被远远低估的预训练模型。

多模态预训练一直是一个比较热门的话题，从 image-text 的角度来看，目前的多模态预训练模型可以大致分为两种：单流模型与双流模型。这里先挖一个坑，后续会对多模态预训练模型进行一个详细的综述，不过真玩意还真是不好写。