英伟达从图像中抽象出概念再生成新的图像,网友:人类幼崽这个技能AI终于学
来源:IT之家 发布时间:2022-08-14 09:46 作者:IT之家 阅读量:6174
2岁的人类幼崽能做什么,AI居然会学。
直到现在,这个终于被科学家攻克了!
有网友评价:很爽这可能是我最近几个月看到的最好的项目了
它是如何工作的。
我们先来看几个例子。
当你上传3张不同角度的陶瓷猫照片时,你可能会得到以下4张新图像:两只在船上钓鱼的陶瓷猫,陶瓷猫书包,班克斯的艺术风格猫和陶瓷猫主题饭盒。
同样的例子是艺术品:
装甲:
碗:
AI不仅可以从图像中提取物体,还可以生成具有特定风格的新图像比如如下图,AI提取了输入图像的绘画风格,生成了一系列这种风格的新绘画
更神奇的是,它还可以将两组输入的图像进行组合,提取一组图像中的物体,然后提取另一组的图像风格,将两者组合生成一幅全新的图像。
除此之外,通过这个功能,你还可以启动一些经典的图像,给它们添加一些新元素。
那么,如此神奇的功能背后是什么原理呢。
虽然近两年来,大规模的文本—图像模型,如DALL,CLIP,GLIDE等,已经被证明有很强的自然语言推理能力
但有一点:如果用户提出一些具体的要求,比如生成一张新的包含我最喜欢的童年玩具的照片,或者把孩子的涂鸦变成一件艺术品,这些大规模的模型是很难做到的。
为了应对这一挑战,提出了一种固定的,预训练的文本图像模型和一小组描述概念的图像目标是从这个小集合中找到一个单词来嵌入和重建图像因为这种嵌入是通过优化过程发现的,所以称为文本倒置
具体来说,就是先把用户输入的图像中的物体或样式抽象出来,转换成伪词s此时,这个伪词可以被视为任何其他词
S在沙滩上的照片,挂在墙上的S的油画,画一个S2风格的S1。
值得注意的是,这项研究使用了小规模,有计划的数据集,因此在生成图像时可以有效避免刻板印象。
比如下图,当提示医生时,其他模型倾向于生成白人和男性的图像,而该模型生成的图像中增加了女性和其他种族的数量。
目前这个项目的代码和数据已经开源,有兴趣的伙伴可以关注一下。
参考链接:
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。
站点精选
- 民生证券给予华测导航推荐评级:全球化布局峥嵘
- 天茂集团领涨保险板块:近期大宗交易频现刘益谦
- 盛新锂能:UT合作双方决定不再扩产至5000
- 共享单车为何频涨价?
- 8月11日中国汽、柴油批发价格分别为9085
- 直播预告思维圆桌派:新周期·新举措——长周期
- 森马服饰:现阶段,公司海外市场以亚洲市场为主
- 贾康:地产冰火两重天,开发商和购房人要关注落
- 中国通信标准化协会发布融合快充团体标准:支持
- 十铨推出新款ELITEPLUSDDR5内存条
- 2025年美国宇航局将发射“双拼车”太空任务
- “国产替代”趋势有望来袭!半导体基金的春天要
- 华尔街纷纷唱空美股:近期反弹与盈利前景不符将
- 振华股份:全资子公司投建的三氯化铬生产线项目
- 第二艘国产大型邮轮开工建造总吨位约14.2万
- 精测电子获得1.15亿元新能源大单累计订单达