超越CLIP的多模态模型,只需不到1%训练数据!南加大最新研究来了
羿阁发自凹非寺
量子位|公众号QbitAI
火爆全网的AI绘画你玩了吗?
女娲无限版、DALL·E2、Imagen……这些通过文字生成图像的AI绘画工具 , 背后的原理都是一个叫“CLIP”的模型 , 它是AI如何“理解”人类语义这一问题的关键 。

文章图片
CLIP(ContrastiveLanguage–ImagePre-training) , 是一种基于对比的图片-文本学习的跨模态预训练模型 , 由OpenAI于去年1月发布 。
它好用是好用 , 但一个大问题是数据需求太大:4亿个图像文本对、256个GPU , 这对许多公司和个人都很不友好 。
对此 , 南加州大学的最新研究发现了一种基于本体的课程学习(CurriculumLearning)算法 , 只需不到1%的训练数据就能达到CLIP同款效果 , 甚至在图像检索方面表现更好 。
新方法名为TOnICS(TrainingwithOntology-InformedContrastiveSampling) , 相关论文已上传到arXiv 。

文章图片
原理介绍在介绍新方法之前 , 首先需要回顾一下CLIP 。
CLIP的模型结构其实非常简单:包括两个部分 , 即文本编码器和图像编码器 。
两者分别编码后 , 将文本和视觉嵌入映射到相同空间中 , 使用对比学习的思想 , 将匹配的图片-文本Embedding的距离拉近 , 将不匹配的Embedding拉远 。
在此基础上 , TOnICS没有选择从头训练图像和文本编码器 , 而是把单模态预训练模型BERT用于文本编码 , 微软的VinVL用于图像编码 , 并使用InfoNCE损失函数将它们彼此对齐 。

文章图片
这是一种基于本体的课程学习算法 , 从简单的样本开始训练 , 方法是随机抽样小批次 , 并通过在图像和文本输入中加入相似的小批量数据 , 逐步加大对比任务的难度 。
举个例子 , 在随机抽样生成的小批量数据中 , 如果想找到“一条叼着飞盘在草地上奔跑的狗” , 只需要先找画面中有狗的图片即可 , 因为随机生成的图像中包含狗的概率非常小 。
也就意味着 , 随机小批量抽样将对比任务简化为了对象匹配 。

文章图片
但当对小批样进行采样时 , 会抓取到很多画面中有狗的相似图片 , 因此仅靠识别图片中是否有狗已经不能解决问题了 , 该模型必须共享上下文级信息的语言和视觉表示 , 从而产生更细粒度的对齐 。

文章图片
此外 , 不同于CLIP从互联网收集构建了4亿个图像-文本对的数据集 , BERT-VinVL模型只需不到1%的训练量 , 但效果并没有打折扣 。

文章图片
研究人员在MS-COCO和ConceptualCaptions上训练BERT-VinVL模型 , 并将该模型与下游检索任务上的CLIP进行比较 。
实验结果发现 , BERT-VinVL模型同样能达到零样本学习效果 , 甚至在图像检索上表现更好(R@1提高了1.5%) 。

文章图片
研究团队该篇论文来自南加州大学的研究团队 , 作者分别是TejasSrinivasan、XiangRen和JesseThomason 。
第一作者TejasSrinivasan , 是南加州大学GLAMOR实验室的一年级博士生 , 跟随助理教授JesseThomason进行多模态机器学习和语言基础领域的研究 。

- 手机同质化一直非常的严重|小米13系列好评满满,骁龙8gen2比苹果a16更强
- 买七彩虹RTX30显卡、整机送大礼了!CF限定礼包快抢来自买七彩虹的消息|买七彩虹rtx30显卡、整机送大礼了!cf限定礼包快抢
- 12月13日消息|苹果appletv4k搭载的a15处理器为5核心
- AMD的RX7900系列显卡昨晚解禁了|RX 7900赢回一波 4K视频生产力终于超越RTX4090
- 月球是哪儿来的?同样是内太阳系行星的水星、金星和火星|月球身世之谜是怎么形成的?
- 当代超级计算机的局限性|量子计算的现在与未来
- 坐在隔壁工位的哔哥最近感慨很深|盘点qq下架的衍生品
- 13代酷睿目前还没有65WTDP型号的主流产品|绝配12代酷睿华擎迷你准系统到手1279元(1.92L体积)
- 12月14日|oppo第二颗自研芯片将到来,网友猜测可能是手环一类的
- 对于最近想要购买手机的小伙伴而言|骁龙8gen2的新旗舰一加acepro值得入手吗?
