CV大神何恺明最新一作:视觉预训练新范式MAE!下一个CV大模型要来?( 二 )
被屏蔽的patch会被移除;不使用掩码令牌 。 这样可以节约计算资源 , 使用一小部分计算和内存来训练非常大的编码器 。
MAE解码器
解码器的输入是完整的令牌集 。 每个掩码标记代表一个共享的、学习过的向量 , 表示存在要预测的缺失patch 。
解码器仅在预训练期间用于执行图像重建任务 。 因此 , 它的设计可以独立于编码器 。 实验中使用的解码器更加轻量级 。 通过这种非对称设计 , 显著减少了预训练时间 。
图像目标的重建
MAE通过预测每个掩码块的像素值来重建输入图像 。
解码器输出中的每个元素都是一个表示补丁的像素值向量 。 解码器的最后一层是线性投影 , 其输出通道的数量等于补丁中像素值的数量 。 解码器的输出被重新整形以形成重建的图像 。
MAE预训练实施效率高 , 实现方式简单 , 而且不需要任何专门的稀疏操作 。 
文章图片
从上图可以看出 , 随着输入图像被遮住的比例升高 , MAE的性能迅速上升 , 在75%左右达到最佳效果 。
性能惊艳:ImageNet-1K最高87.8%
与当前SOTA自监督预训练方法相比 , 对于ViT-B的表现结果都很接近 。 对于ViT-L不同方法的结果就存在很大差距 , 这表明更大模型的挑战是减少过度拟合 。
再看最后一列 , 仅使用ImageNet-1K数据时 , ViT-Huge模型的最高精确度为87.8% , 这明显超过了所有在ImageNet-21K预训练的ViT变种模型 。
作者总结道 , 与BEiT方法相比 , MAE更准确、更简单、更高效 。 
文章图片
网友:respect
「现在是2021年11月12日中午 , 恺明刚放出来几个小时 , 就预定了CVPR2022bestpapercandidate(这里说的是bestpapercandidate , 不是bestpaper)」
这篇文章推翻了之前视觉自监督领域的统领范式(NLP里面确实用的比较多 , 但是CV里面用的并不多) , 提出了简单本质有效的自监督方法:基于mask和autoencoder的恢复方法 。 
文章图片
「大致看了一遍 , 做的很solid , 在iGPT和BEiT的基础上 , 化繁为简 , 找出了最关键的点 , 能够让BERT式预训练在CV上也能训到很好!未来可以预见能比肩GPT3的CV大模型不远矣 。 」
文章图片
「只想说 , 凯明大佬cv封神!!!膜拜大佬 , 求今年cvpr中签 。 」
文章图片
作者介绍
何恺明 , 本科就读于清华大学 , 博士毕业于香港中文大学多媒体实验室 。 
文章图片
2011年加入微软亚洲研究院(MSRA)工作 , 主要研究计算机视觉和深度学习 。 2016年 , 加入FacebookAIResearch(FAIR)担任研究科学家 。
2020年1月11日 , 荣登AI全球最具影响力学者榜单 。
参考资料:
https://arxiv.org/abs/2111.06377
https://www.zhihu.com/question/498364155/answers/updated
https://www.zhihu.com/question/498364155/answer/2219622610
- 小米|小米最强影像旗舰!小米12S系列海报泄密:徕卡标变白了
- 陨石|小行星“打水漂”闯入地球 形成世界最长陨石陨落带
- 个头大的车厘子比小樱桃营养价值更高,对吗 蚂蚁新村6月28日答案最新
- ssd|小屏旗舰跌至2699元,67W快充+5000万三摄,成荣耀70最大对手
- 最前线 | 腾讯游戏发布40余款产品与项目,《王者荣耀》发布全新规划
- “大家好,我是渣渣辉!”,最近刷爆朋友圈的港普大家来了解一下
- 最小4毫米!一种名叫“老佛爷”的蜘蛛来了,灭绝生物会出现吗?
- 显卡|3个不买RTX 3080的理由:没钱只能排最后
- 世界最干旱沙漠传来消息,长出18亿棵树,科学家:令人担忧
- 高通骁龙|夏天一到骁龙8Gen1没怎么玩就发热?Find X5 Pro用户最有发言权
