文章图片
而谷歌的Imagen则使用纯语言模型只负责编码文本特征,把文本到图像转换的工作丢给了图像生成模型 。
语言模型部分使用的是谷歌自己的T5-XXL编码器,将训练好的文本冻结 。
图像生成部分则是一系列扩散模型,先生成低分辨率图像,再逐级超采样 。
文章图片
谷歌的T5-XXL有46亿个参数,而扩大文本编码器的规模,可以有效改善文本到图像的对应关系,和图像的保真度 。
此外,Imagen还使用了另一种称为noise conditioning augmentation的扩散技术,帮助模型学习已添加的噪声量,从而提高图像的还原性 。
对比来看,Imagen似乎比DALL·E更具有“写实”的特点:
文章图片
目前,在Imagen官网上已涌现出各种新奇的图像 。
有人给浣熊戴上了宇航员头盔 。
文章图片
泰迪熊在这里开始游蝶泳 。
文章图片
还有老鹰型的巧克力冰淇淋(嗯,还挺应景) 。
文章图片
截至目前,Imagen和DALL·E都还在调试阶段,尚未向公众开放 。
One More Thing
这次《虎戴VR》AI作画大战中,也不乏有失败的作品 。
例如有网友就给出了用DALL·E mini来生成的示例 。
文章图片
不难看出,在这版中的《虎戴VR》中,并没有任何VR的出现,而且老虎的面部基本上都是模糊不清 。
据网友描述,他在生成的过程中,只是把“北宋”改成了“南宋”:
画作最难的“形象性”,在这次有所下降 。
文章图片
那么你觉得《虎戴VR》,哪家AI神器更强一些呢?
参考链接:
【老虎|宋朝名画“虎戴VR眼镜” 在外网火了】https://twitter.com/hardmaru/status/1532757753797586944?s=21&t=MhwVN5VXH22zFK7DWQJnCg
- 老虎|36家科技巨头组建元宇宙标准论坛!被批为“纸老虎”!我们应该相信吗?
- 厕所|男子动物园如厕 遇老虎趴窗全程“偷窥”!画面搞笑
- 宋朝爆米花是糯米花还是玉米花 蚂蚁庄园糯米花
- 你知道吗?宋朝就有“爆米花”了,当时人们更可能吃到的是 蚂蚁庄园6月23日答案最新
- 你知道吗?宋朝就有“爆米花”了,当时人们更可能吃到的是 蚂蚁庄园今日答案早知道6月23日
- 宋朝就有爆米花了 蚂蚁庄园答案6.23
- Python|太LOW了,还在用皮老虎,万元级的微单镜头怎么也得配上电吹风
- 老虎|网络谣言:流量和钱
- 爆米花古代用来做什么 蚂蚁庄园宋朝爆米花
- 我国早在宋朝就有爆米花了,猜猜古人曾经用它来做什么 蚂蚁庄园今日答案6月17日
