最近 , 在「AI画画」这一块 , 大厂们又卷上了新高度!
4月 , 在GPT-3大模型的加持下 , OpenAI对画图界的扛把子DALL-E进行了2.0版的全面升级 。
让自然语言生成图像达到了全新的高度 。 比如下面这幅「孙子玩儿电脑」(非骂街) 。

文章图片
5月 , 谷歌不甘落后推出AI创作神器Imagen , 效果奇佳 。
号称重夺AI画画老大哥地位的Imagen , 迅速被国外网友玩出了新高度 , 一波「虎戴VR」热度直接起飞 。

文章图片
有人惊呼 , 现在的新模型的保质期只有一个月了么?
谷歌一看 , 这是要开卷的节奏 , 不如我再进一步 , 再搞个新的AI大画家吧 。
于是 , 只过了一个月 , 新一代AI绘画大师Parti就来了!

文章图片
Parti , 全名叫「PathwaysAutoregressiveText-to-Image」 , 是谷歌大脑老大JeffDean提出的多任务AI大模型蓝图Pathway的一部分 。
JeffDean在社交媒体上第一时间推广了一波 。

文章图片
同时他也表示 , 和一个月之前的「老前辈」Imagen相比 , 这次的Parti使用的是不同的技术路线 。
为此 , 谷歌AI专门写了一篇博客文章 , 对比了两个「AI大画家」在技术层面上的区别 。
虽然Imagen和Parti使用类似技术 , 不过但具体的策略是不同的——自回归和扩散 。 这样互补的方式使得两个强大模型的有了更加令人期待的组合!
从Imagen到Parti , 谷歌又整了啥新活?
先来回顾一下「老前辈」Imagen , 它是一个Diffusion模型 , 学习将随机点的图案转换为图像 。
这些图像首先以低分辨率开始 , 然后通过超分辨率技术 , 不断的丰富图像的信息 , 进而达到提高图像分辨率的目的 。

文章图片
具体点讲 , 就是:
在用户输入文本后 , 如「一只戴着蓝色格子贝雷帽、穿着红色波点高领毛衣的金毛犬」 , Imagen先使用一个冻结(frozen)T5-XXL编码器将输入文本映射到嵌入序列和64×64图像扩散模型 , 再将生成的64×64图像上采样为256×256图像 , 最后上采样为1024×1024图像 。
而这次新推出Parti是一个自回归模型 , 它的方法首先将一组图像转换为一系列代码条目 , 类似于拼图 。 然后将给定的文本提示转换为这些代码条目并「拼成」一个新图像 。
换言之 , Parti将「文本到图像的生成」转换成一个「序列到序列」的建模问题 , 类似于机器翻译——这使得它能够受益于大型语言模型(如PaLM) , 这对于处理长而复杂的文本提示和生成高质量的图像至关重要 。
在这种情况下 , 目标输出是图像token的序列 , 而不是另一种语言的文本token 。
Parti通过使用功能强大的图像标记器「ViT-VQGAN」将图像编码为离散token序列 , 并利用其重建图像token序列的能力 , 使其成为高质量、视觉多样化的图像 。

文章图片
参数从3.5亿到200亿:有啥区别?
Parti的模型规模支持扩展 , 最高可扩展至200亿参数 。
参数越多 , 模型规模越大 , 生成图像的细节越丰富 , 错误信息也明显降低 。
比如面对同样的文本输入:
身穿橙色连帽衫和蓝色太阳镜的袋鼠站在悉尼歌剧院前的草地上 , 胸前举着写着「欢迎朋友」的标语
- 章子怡扎减龄丸子头,短裙露美腿不像生过娃,从影20年笑容依旧甜
- “大家好,我是渣渣辉!”,最近刷爆朋友圈的港普大家来了解一下
- 三星|从“不想买”到“抢着买”,骁龙8+无线充电+IP68防水,下跌600元
- 男子带家传木盒来鉴宝,盒子从没打开过,专家:稳住,两个好消息
- 世界上最孤独的“手”,他握住一棵树长达50年,却从来没有松过手
- 互联互通|哪些无人机适合新手使用?从普宙O2到大疆Mini 3 Pro,一文读懂
- 路由器|WiFi信号增强从简到易,软硬兼施后效果明显
- 关于时间的12件事,比如为什么从三月份起要把你的钟表拨快些?
- 全面屏|一台没上市的金立手机,从中看到了时代的眼泪
- 索尼|从4999元跌至3299元,8GB+256GB旗舰,不要利润了
