英伟达AI从图像中抽象出概念再生成新图像,幼儿这个技能终于学会
羿阁发自凹非寺
量子位|公众号QbitAI
人类幼崽2岁就能做的事 , AI竟然才学会?
早在2017年 , 就有网友吐槽:2岁幼童只要见过一次犀牛的照片 , 就能在其他图片里认出不同姿势、视角和风格的卡通犀牛 , 但AI却做不到 。

文章图片
直到现在 , 这一点终于被科学家攻克了!
【英伟达AI从图像中抽象出概念再生成新图像,幼儿这个技能终于学会】最新研究发现 , 只要给AI喂3-5张图片 , AI就能抽象出图片里的物体或风格 , 再随机生成个性化的新图片 。

文章图片
有网友评价:非常酷 , 这可能是我这几个月来看到的最好的项目 。

文章图片
它是如何工作的?让我们先来看几个例子 。
当你上传3张不同角度的陶瓷猫照片 , 可能会得到以下4张新图像:两只在船上钓鱼的陶瓷猫、陶瓷猫书包、班克斯艺术风格的猫以及陶瓷猫主题的午餐盒 。

文章图片
同样的例子还有艺术品:

文章图片
铠甲小人:

文章图片
碗:

文章图片
不只是提取图像中的物体 , AI还能生成特定风格的新图像 。
例如下图 , AI提取了输入图像的绘画风格 , 生成了一系列该风格的新画作 。

文章图片
更神奇的是 , 它还能将两组输入图像相结合 , 提取一组图像中的物体 , 再提取另一组的图像风格 , 两者结合 , 生成一张崭新的图像 。

文章图片
除此之外 , 有了这个功能 , 你还可以对一些经典图像“下手” , 给它们添加一些新元素 。

文章图片
那么 , 这么神奇的功能背后是什么原理呢?
尽管近两年来 , 大规模文本-图像模型 , 如DALL·E、CLIP、GLIDE等 , 已经被证明有很强的自然语言推理能力 。
但有一点:如果用户提出一些特定的需求 , 比如生成一张包含我最喜欢的童年玩具的新照片 , 或者把孩子的涂鸦变成一件艺术品 , 这些大规模模型都很难做到 。
为了应对这一挑战 , 研究给出了一个固定的、预先训练好的文本-图像模型和一个描述概念的小图像集(用户输入的3-5张图像) , 目标是找到一个单一的词嵌入 , 从小集合中重建图像 。 由于这种嵌入是通过优化过程发现的 , 于是称之为“文本倒置(TextualInversion)” 。
具体来说 , 就是先抽象出用户输入图像中的物体或风格 , 并转换为“S?”这一伪词(pseudo-word) , 这时 , 这个伪词就可以被当作任何其他词来处理 , 最后根据“S?”组合成的自然语句 , 生成个性化的新图像 , 比如:
“一张S?在海滩上的照片”、”一幅挂在墙上的S?的油画”、”以S2?的风格画一幅S1?” 。

文章图片
值得注意的是 , 由于本次研究应用了一个小规模、经过策划的数据集 , 因此在生成图像时能有效地避免刻板印象 。
- 荣耀手机独立出华为后|从3699跌至2059荣耀太猛了
- 本文转自:央广网央广网兰州12月13日消息(记者邸文炯)记者从兰州大学获悉|第四届中国研究生人工智能创新大赛圆满落幕
- Intel|Intel 13代酷睿非K新品爆发:性能飞升多达64%!
- 12月13日消息|极狐gitlab与微软、神州数码达成合作
- 47 岁从华为退休,操作系统老兵转战 OpenHarmony 生态 | 近匠
- 极狐 GitLab 与微软、神州数码达成合作,在中国市场落地运营
- tiktok|你多久没换手机了?调研机构预测2022年换机周期,长达三年半!
- 2022年|新职业区块链应用操作员-年薪可达50万
- 显卡|全迅达宣布推出首款采用 PCIe 第 5.0 代连接器的 ATX 3.0 电源
- 5G|多款取暖器双十二价格比平时高,平台客服:价格波动遵从商家意愿,不违反规定
