谷歌用新AI超越自己:让Imagen能够指定生成对象,风格能随意转换

本文系网易新闻?网易号特色内容激励计划签约账号原创内容,未经账号授权,禁止随意转载。羿阁 发自 凹非寺 | 公众号 QbitAI

给Imagen加上“指哪打哪”的能力,会变得有多强?

只需上传3-5张指定物体的照片,再用文字描述想要生成的背景、动作或表情,就能让指定物体“闪现”到你想要的场景中,动作表情也都栩栩如生。

不止是动物,其他物体像墨镜、书包、花瓶,也都能做出几乎以假乱真的成品:

属于是发朋友圈也不会被别人看出破绽的那种。(手动狗头)

这个神奇的文字-图像生成模型名叫DreamBooth,是谷歌的最新研究成果,基于Imagen的基础上进行了调整,一经发布就在推特上引发热议。

有网友调侃:这简直是更先进的梗图生成器。

目前相关研究论文已上传至arXiv。

几张照片就能“环游世界”

在介绍原理前,让我们先来看看DreamBooth的各种能力,包括换景、指定动作表情服饰、更迭风格等。

如果你是个“铲屎官”,有了这个模型的“换景能力”,就能足不出户送自家狗子走出家门,凡尔赛宫里、富士山脚下……通通不在话下。

△光照也比较自然

不仅如此,宠物的动作和表情也都能随意指定,属实是把“一句话P图”的细节拿捏到位了。

除了上面的“基操”以外,DreamBooth甚至还能更换各种照片风格,也就是所谓的“加滤镜”。

例如,各种“世界名画”画风、各种视角的狗子,简直不要太艺术:

至于给它们加上装饰?各种cosplay的小道具,也是小菜一碟。

除此之外,无论是更换颜色:

还是更魔幻一点,更换物种,这只AI也都能做到。

那么,如此有趣的效果背后的是什么呢?

给输入加个“特殊标识符”

研究人员做了个对比,相较于其他大规模文本-图像模型如DALL-E2、Imagen等,只有采用DreamBooth的方法,才能做到对输入图像的忠实还原。

如下图所示,输入3张右边表盘上画着黄色“3”的小闹表,其中DreamBooth生成的图像完美保留了钟表的所有细节,但DALL-E2和Imagen几次生成的钟都与原来的钟“有那么点差异”。

△李逵和“李鬼”

而这也正是DreamBooth更大的特点——个性化表达。

用户可以给定3-5张自己随意拍摄的某一物体的图片,就能得到不同背景下的该物体的新颖再现,同时又保留了其关键特征。

当然,作者也表示,这种方法并不局限于某个模型,如果DALL·E2经过一些调整,同样能实现这样的功能。

具体到方法上,DreamBooth采用了给物体加上“特殊”的方法。

也就是说,原本图像生成模型收到的指令只是一类物体,例如[cat]、[dog]等,但现在DreamBooth会在这类物体前加上一个特殊标识符,变成[V][物体类别]。

以下图为例,将用户上传的三张狗子照片和相应的类名(如“狗”)作为输入信息,得到一个经过微调的文本-图像扩散模型。

该扩散模型用“a [V] dog”来特指用户上传图片中的狗子,再把其带入文字描述中,生成特定的图像,其中[V]就是那个特殊标识符。

至于为什么不直接用[V]来指代整个[特定物体]?

作者表示,受限于输入照片的数量,模型无法很好地学习到照片中物体的整体特征,反而可能出现过拟合。

因此这里采用了微调的思路,整体上仍然基于AI已经学到的[物体类别]特征,再用[V]学到的特殊特征来修饰它。

以生成一只白色的狗为例,这里模型会通过[V]来学习狗的颜色(白色)、体型等个性化细节,加上模型在[狗]这个大的类别中学到的狗的共性,就能生成更多合理又不失个性的白狗的照片。

为了训练这个微调的文本-图像扩散模型,研究人员首先根据给定的文本描述生成低分辨率图像,这时生成的图像中狗子的形象是随机的。

然后再应用超分辨率的扩散模型进行替换,把随机图像换成用户上传的特定狗子。

研究团队

DreamBooth的研究团队来自谷歌,作者是Nataniel Ruiz。

Nataniel Ruiz是波士顿大学图像和视频计算组的四年级博士生,目前在谷歌实习。主要研究方向是生成模型、图像翻译、对抗性攻击、面部分析和模拟。

论文链接附在文末,感兴趣的小伙伴们赶紧来看看吧~

论文地址:https://arxiv.org/abs/2208.12242参考链接:[1]https://dreambooth.github.io/[2]https://twitter.com/natanielruizg/status/1563166568195821569[3]https://natanielruiz.github.io/

本文来自“软馨吖”用户投稿,该文观点仅代表作者本人,不代表华夏信息网立场,本站不对文章中的任何观点负责,内容版权归原作者所有、内容只用于提供信息阅读,无任何商业用途。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站(文章、内容、图片、音频、视频)有涉嫌抄袭侵权/违法违规的内容,请发送邮件至1470280261#qq.com举报,一经查实,本站将立刻删除、维护您的正当权益。如若转载,请注明出处:http://www.xxxwhg.com/zh/8345.html

上一篇 2022-08-28 12:46:51
下一篇 2022-08-28 12:44:52

相关推荐

  • 图片剪切怎么操作(图片剪切怎么操作在粘贴)

    在日常生活中,当你在浏览图片时,往往会想要对一些图片进行裁剪,或者是想要在一些生活照中裁剪出自己的那一部分,那么这种时候应该怎样办呢?其实我们可以利用一些图片处理软件来对图片进行剪裁操作?那么问题来了,图片裁剪怎么弄呢?有哪些软件可以裁剪图片呢?接下来我就

    2023-04-17 11:04:58
    329
  • 随意春芳歇王孙自可留的意思(随意春芳歇王孙自可留的意思典故)

    您好,今日小编就为大家解答这个问题。随意春芳歇王孙自可留的意思典故,随意春芳歇王孙自可留的意思相信很多小伙伴还不知道,现在让我们一起来看看吧!1、随意春芳歇,王孙自可留翻译是春日的芳菲不妨任随它消歇,秋天的山中王孙自可以久留。2、出自王维的《山居秋暝》。3、《

    2023-02-24 05:24:13
    187
  • 寻衅滋事随意殴打未成年女生(寻衅滋事随意殴打未成年人)

    成年人恶意殴打未成年人应该如何处罚? 成人恶意殴打未成年人,违反了我国《未成年人保护法》、《治安处罚法》,导致轻伤以上的,触犯刑法故意伤害罪,应该接受以上法律惩罚。根据《中华人民共和国治安处罚法》第四十三条规定,殴打他人的,或者故意伤害他人身体的,处五日以上

    2022-07-31 01:24:07
    245
  • 寻衅滋事随意殴打他人致2人轻微伤(多次随意殴打他人寻衅滋事判决书)

    寻衅滋事殴打他人怎么判 寻衅滋事罪,是指肆意挑衅,随意殴打、骚扰他人或任意损毁、占用公私财物,或者在公共场所起哄闹事。严重破坏社会秩序的行为。有下列寻衅滋事行为之一,破坏社会秩序的,处五年以下有期徒刑、拘役或者管制:一)随意殴打他人,情节恶劣的;二)追逐、拦

    2022-07-11 07:08:07
    318