最近|从imagen到parti，谷歌又整了啥新活？

最近，在「AI画画」这一块，大厂们又卷上了新高度！
4月，在GPT-3大模型的加持下， OpenAI对画图界的扛把子DALL-E进行了2.0版的全面升级。
让自然语言生成图像达到了全新的高度。比如下面这幅「孙子玩儿电脑」（非骂街）。

文章图片
5月，谷歌不甘落后推出AI创作神器Imagen ，效果奇佳。
号称重夺AI画画老大哥地位的Imagen ，迅速被国外网友玩出了新高度，一波「虎戴VR」热度直接起飞。

文章图片
有人惊呼，现在的新模型的保质期只有一个月了么？
谷歌一看，这是要开卷的节奏，不如我再进一步，再搞个新的AI大画家吧。
于是，只过了一个月，新一代AI绘画大师Parti就来了！

文章图片
Parti ，全名叫「PathwaysAutoregressiveText-to-Image」，是谷歌大脑老大JeffDean提出的多任务AI大模型蓝图Pathway的一部分。
JeffDean在社交媒体上第一时间推广了一波。

文章图片
同时他也表示，和一个月之前的「老前辈」Imagen相比，这次的Parti使用的是不同的技术路线。
为此，谷歌AI专门写了一篇博客文章，对比了两个「AI大画家」在技术层面上的区别。
虽然Imagen和Parti使用类似技术，不过但具体的策略是不同的——自回归和扩散。这样互补的方式使得两个强大模型的有了更加令人期待的组合！
从Imagen到Parti ，谷歌又整了啥新活？
先来回顾一下「老前辈」Imagen ，它是一个Diffusion模型，学习将随机点的图案转换为图像。
这些图像首先以低分辨率开始，然后通过超分辨率技术，不断的丰富图像的信息，进而达到提高图像分辨率的目的。

文章图片
具体点讲，就是：
在用户输入文本后，如「一只戴着蓝色格子贝雷帽、穿着红色波点高领毛衣的金毛犬」， Imagen先使用一个冻结（frozen）T5-XXL编码器将输入文本映射到嵌入序列和64×64图像扩散模型，再将生成的64×64图像上采样为256×256图像，最后上采样为1024×1024图像。
而这次新推出Parti是一个自回归模型，它的方法首先将一组图像转换为一系列代码条目，类似于拼图。然后将给定的文本提示转换为这些代码条目并「拼成」一个新图像。
换言之， Parti将「文本到图像的生成」转换成一个「序列到序列」的建模问题，类似于机器翻译——这使得它能够受益于大型语言模型（如PaLM），这对于处理长而复杂的文本提示和生成高质量的图像至关重要。
在这种情况下，目标输出是图像token的序列，而不是另一种语言的文本token 。
Parti通过使用功能强大的图像标记器「ViT-VQGAN」将图像编码为离散token序列，并利用其重建图像token序列的能力，使其成为高质量、视觉多样化的图像。

文章图片
参数从3.5亿到200亿：有啥区别？
Parti的模型规模支持扩展，最高可扩展至200亿参数。
参数越多，模型规模越大，生成图像的细节越丰富，错误信息也明显降低。
比如面对同样的文本输入：
身穿橙色连帽衫和蓝色太阳镜的袋鼠站在悉尼歌剧院前的草地上，胸前举着写着「欢迎朋友」的标语