Earyant的技术博客

欢迎来到Earyant的技术博客,在这里我将与你分享新技术。

clip比你想的更重要

clip: 比你想的要重要

前言

自去年开始就开始关注多模态领域,一方面工作场景内容的需要;一方面的确是非常感兴趣。大致从多模态预训练和多模态融合两个角度去研究。 从目前的趋势来看,接下来不出意外应该是多模态领域尤其是多模态预训练领域的主场。这就引出我今天想讲的内容: CLIP,一个被远远低估的预训练模型。

多模态预训练模型

多模态预训练一直是一个比较热门的话题,从 image-text 的角度来看,目前的多模态预训练模型可以大致分为两种:单流模型双流模型。这里先挖一个坑,后续会对多模态预训练模型进行一个详细的综述,不过真玩意还真是不好写。

单流模型

双流模型

CLIP 是什么?

CLIP 告诉了我们什么?

欢迎关注我的其它发布渠道