英伟达推出GAN“超级缝合体”,输入文字草图都能生成逼真照片
晓查发自凹非寺量子位报道|公众号QbitAI
继GauGAN2之后 , 英伟达推出了一个GAN的“超级缝合体”——PoEGAN 。
PoEGAN可以接受多种模态的输入 , 文字描述、图像分割、草图、风格都可以转化为图片 。

文章图片
而且它可以同时接受以上几种输入模态的任意两种组合 , 这便是PoE的含义 。

文章图片
所谓PoE是Hinton在2002年提出的“专家乘积”(productofexperts)概念 , 每个专家(单独模型)被定义为输入空间上的一个概率模型 。
而每种单独的输入模态都是合成图像必须满足的约束条件 , 因此满足所有约束的一组图像是满足每个约束集合的交集 。

文章图片
假设每种约束的联合条件概率分布都服从高斯分布 , 就用单条件概率分布的乘积来表述交集的分布 。

文章图片
在此条件下 , 为了使乘积分布在一个区域具有高密度 , 每个单独的分布需要在该区域具有高密度 , 从而满足每个约束 。
而PoEGAN的重点是如何将每种输入混合在一起 。
PoEGAN的设计
PoEGAN的生成器使用全局PoE-Net将不同类型输入的变化混合起来 。
我们将每个模态输入编码为特征向量 , 然后使用PoE汇总到全局PoE-Net中 。 解码器不仅使用全局PoE-Net的输出 , 还直接连接分割和草图编码器 , 以此来输出图像 。

文章图片
全局PoE-Net的结构如下 , 这里使用一个潜在的特征矢量z0作为样本使用PoE , 然后由MLP处理以输出特征向量w 。

文章图片
在鉴别器部分 , 作者提出了一种多模态投影鉴别器 , 将投影鉴别器推广到处理多个条件输入 。
与计算图像嵌入和条件嵌入之间单个内积的标准投影鉴别器不同 , 这里要计算每个输入模态的内积 , 并将其相加以获得最终损失 。

文章图片
随意变换输入的GAN
PoE可以在单模态输入、多模态输入甚至无输入时生成图片 。
当使用单个输入模态进行测试时 , PoE-GAN的表现优于之前专门为该模态设计的SOTA方法 。
例如在分割输入模态中 , PoE-GAN优于此前的SPADE和OASIS 。

文章图片
在文本输入模态中 , PoE-GAN优于文本到图像模型DF-GAN、DM-GAN+CL 。

文章图片
当以模式的任意子集为条件时 , PoE-GAN可以生成不同的输出图像 。 下面展示了PoE-GAN的随机样本 , 条件是两种模式(文本+分割、文本+草图、分割+草图)在景观图像数据集上 。

文章图片
PoE-GAN甚至还能没有输入 , 此时PoE-GAN就会成为一个无条件的生成模型 。 以下是PoE-GAN无条件生成的样本 。

文章图片
团队介绍
论文通讯作者是英伟达著名工程师刘洺堉 , 他的研究重点是深度生成模型及其应用 。 英伟达Canvas和GauGAN等有趣的产品均出自他手 。
- 在昨日推文中,王者荣耀将以“____文化”为主题推出限定皮肤,为乡村振兴加油? 王者荣耀6月28日每日一题答案
- 为什么科学家用昆虫翅膀的起源质疑进化论?达尔文到底是对是错?
- 拼多多|拼多多推出PC网页版商城,或只为缓解增长焦虑
- 小米Civi,推荐给喜欢高颜值外观的自拍达人
- GeForce|英伟达GeForce RTX 4090系列渲染图曝光:FE版将超过三槽规格
- 世界上最孤独的“手”,他握住一棵树长达50年,却从来没有松过手
- |华为推出新款显示器,提供高色域,可旋转屏幕,售价899元
- OPPO|OPPO真香千元机,骁龙778G+五千电池官方降至1299,好评率高达97%
- AI与K12的碰撞:科大讯飞推出适龄专属AI翻译笔
- realme gt2|苹果14将推出紫色?Reno8花仙紫已上线,网友:玩色彩还得是绿厂
