clip: 比你想的要重要
前言
自去年开始就开始关注多模态领域,一方面工作场景内容的需要;一方面的确是非常感兴趣。大致从多模态预训练和多模态融合两个角度去研究。 从目前的趋势来看,接下来不出意外应该是多模态领域尤其是多模态预训练领域的主场。这就引出我今天想讲的内容: CLIP,一个被远远低估的预训练模型。
多模态预训练模型
多模态预训练一直是一个比较热门的话题,从 image-text 的角度来看,目前的多模态预训练模型可以大致分为两种:单流模型与双流模型。这里先挖一个坑,后续会对多模态预训练模型进行一个详细的综述,不过真玩意还真是不好写。