英伟达AI从图像中抽象出概念再生成新图像，幼儿这个技能终于学会

羿阁发自凹非寺
量子位|公众号QbitAI
人类幼崽2岁就能做的事， AI竟然才学会？
早在2017年，就有网友吐槽：2岁幼童只要见过一次犀牛的照片，就能在其他图片里认出不同姿势、视角和风格的卡通犀牛，但AI却做不到。

文章图片
直到现在，这一点终于被科学家攻克了！
【英伟达AI从图像中抽象出概念再生成新图像，幼儿这个技能终于学会】最新研究发现，只要给AI喂3-5张图片， AI就能抽象出图片里的物体或风格，再随机生成个性化的新图片。

文章图片
有网友评价：非常酷，这可能是我这几个月来看到的最好的项目。

文章图片
它是如何工作的？让我们先来看几个例子。
当你上传3张不同角度的陶瓷猫照片，可能会得到以下4张新图像：两只在船上钓鱼的陶瓷猫、陶瓷猫书包、班克斯艺术风格的猫以及陶瓷猫主题的午餐盒。

文章图片
同样的例子还有艺术品：

文章图片
铠甲小人：

文章图片
碗：

文章图片
不只是提取图像中的物体， AI还能生成特定风格的新图像。
例如下图， AI提取了输入图像的绘画风格，生成了一系列该风格的新画作。

文章图片
更神奇的是，它还能将两组输入图像相结合，提取一组图像中的物体，再提取另一组的图像风格，两者结合，生成一张崭新的图像。

文章图片
除此之外，有了这个功能，你还可以对一些经典图像“下手” ，给它们添加一些新元素。

文章图片
那么，这么神奇的功能背后是什么原理呢？
尽管近两年来，大规模文本-图像模型，如DALL·E、CLIP、GLIDE等，已经被证明有很强的自然语言推理能力。
但有一点：如果用户提出一些特定的需求，比如生成一张包含我最喜欢的童年玩具的新照片，或者把孩子的涂鸦变成一件艺术品，这些大规模模型都很难做到。
为了应对这一挑战，研究给出了一个固定的、预先训练好的文本-图像模型和一个描述概念的小图像集（用户输入的3-5张图像），目标是找到一个单一的词嵌入，从小集合中重建图像。由于这种嵌入是通过优化过程发现的，于是称之为“文本倒置（TextualInversion）” 。
具体来说，就是先抽象出用户输入图像中的物体或风格，并转换为“S?”这一伪词（pseudo-word），这时，这个伪词就可以被当作任何其他词来处理，最后根据“S?”组合成的自然语句，生成个性化的新图像，比如：
“一张S?在海滩上的照片”、”一幅挂在墙上的S?的油画”、”以S2?的风格画一幅S1?” 。

文章图片
值得注意的是，由于本次研究应用了一个小规模、经过策划的数据集，因此在生成图像时能有效地避免刻板印象。