老虎|宋朝名画“虎戴VR眼镜” 在外网火了( 二 )

文章图片

而谷歌的Imagen则使用纯语言模型只负责编码文本特征，把文本到图像转换的工作丢给了图像生成模型。
语言模型部分使用的是谷歌自己的T5-XXL编码器，将训练好的文本冻结。
图像生成部分则是一系列扩散模型，先生成低分辨率图像，再逐级超采样。

文章图片

谷歌的T5-XXL有46亿个参数，而扩大文本编码器的规模，可以有效改善文本到图像的对应关系，和图像的保真度。
此外，Imagen还使用了另一种称为noise conditioning augmentation的扩散技术，帮助模型学习已添加的噪声量，从而提高图像的还原性。
对比来看，Imagen似乎比DALL·E更具有“写实”的特点：

文章图片

目前，在Imagen官网上已涌现出各种新奇的图像。
有人给浣熊戴上了宇航员头盔。

文章图片

泰迪熊在这里开始游蝶泳。

文章图片

还有老鹰型的巧克力冰淇淋（嗯，还挺应景）。

文章图片

截至目前，Imagen和DALL·E都还在调试阶段，尚未向公众开放。
One More Thing
这次《虎戴VR》AI作画大战中，也不乏有失败的作品。
例如有网友就给出了用DALL·E mini来生成的示例。

文章图片

不难看出，在这版中的《虎戴VR》中，并没有任何VR的出现，而且老虎的面部基本上都是模糊不清。
据网友描述，他在生成的过程中，只是把“北宋”改成了“南宋”：
画作最难的“形象性”，在这次有所下降。

文章图片

那么你觉得《虎戴VR》，哪家AI神器更强一些呢？
参考链接：
【老虎|宋朝名画“虎戴VR眼镜” 在外网火了】https://twitter.com/hardmaru/status/1532757753797586944?s=21&t=MhwVN5VXH22zFK7DWQJnCg