视觉Transformer BERT预训练新方式:中科大、MSRA等提出PeCo( 三 )

文章图片
目标检测与分割:如表3所示 , 在这一任务上 , PeCo获得了最好的性能:

文章图片
感知Codebook分析
码字语义:学习的感知码字是否具有(更多)语义含义?为了回答这个问题 , 该研究设计实验以提供视觉和定量结果 。
首先 , 该研究将对应于相同码字的图像patch进行可视化 , 并与两个基线进行比较:在2.5亿私有数据上训练而成的DALL-Ecodebook;不使用感知相似性的PeCo模型的一个变体 。 结果如图3所示 , 我们可以看到该研究码字与语义高度相关 , 如图中所示的轮子 , 来自基线的码字通常与低级信息(如纹理、颜色、边缘)相关 。

文章图片
此外 , 该研究还与不使用感知相似性的变体进行了比较 。 如表4所示 , 我们可以发现感知码字在线性评估和重构图像分类方面获得了更高的准确率 。 这表明感知codebook具有更多的语义意义 , 有利于图像重构过程 。

文章图片
下图为使用BEiT和PeCo在ImageNet-1k上重构任务的示例 。 对于每个样本 , 第一张是原始图像 , 第二张是对应的掩码图像 , 第三张是BEiT重构图像 , 最后一张是从感知codebook(PeCo)重构的图像 。 PeCo在感知codebook的帮助下 , 能够对掩码区域进行更语义化的预测 。

文章图片
- 红米手机|红米K60Pro曝光:超视觉直屏+全场景影像,真香机预定
- NVIDIA用照片造出逼真3D乐器,大秀爵士乐表演,论文入选计算机视觉顶会
- 带货|融资不断,工业3D视觉有何潜力?
- 荣耀|荣耀80 Pro曝光:超视觉无界屏+150倍,一代更比一代强
- 机器视觉|36氪首发丨「奥乘智能」获1500万元Pre-A轮融资,硅谷老兵切入制药机器视觉检测
- 字节跳动 AI Lab 提出多模态模型:X-VLM,学习视觉和语言多粒度对齐
- 智能工业相机,Baumer视觉传感器,集成视觉检测软件的CCD工业相机
- 计算机视觉|全球Top 2!腾讯计算机视觉能力再突破
- 华为“机器视觉”盯上了特斯拉
- “幽灵刹车”频发,是特斯拉纯视觉感知的锅?
