CV大神何恺明最新一作：视觉预训练新范式MAE！下一个CV大模型要来？( 二 )

被屏蔽的patch会被移除；不使用掩码令牌。这样可以节约计算资源，使用一小部分计算和内存来训练非常大的编码器。
MAE解码器
解码器的输入是完整的令牌集。每个掩码标记代表一个共享的、学习过的向量，表示存在要预测的缺失patch 。
解码器仅在预训练期间用于执行图像重建任务。因此，它的设计可以独立于编码器。实验中使用的解码器更加轻量级。通过这种非对称设计，显著减少了预训练时间。
图像目标的重建
MAE通过预测每个掩码块的像素值来重建输入图像。
解码器输出中的每个元素都是一个表示补丁的像素值向量。解码器的最后一层是线性投影，其输出通道的数量等于补丁中像素值的数量。解码器的输出被重新整形以形成重建的图像。
MAE预训练实施效率高，实现方式简单，而且不需要任何专门的稀疏操作。

文章图片
从上图可以看出，随着输入图像被遮住的比例升高， MAE的性能迅速上升，在75%左右达到最佳效果。
性能惊艳：ImageNet-1K最高87.8%
与当前SOTA自监督预训练方法相比，对于ViT-B的表现结果都很接近。对于ViT-L不同方法的结果就存在很大差距，这表明更大模型的挑战是减少过度拟合。
再看最后一列，仅使用ImageNet-1K数据时， ViT-Huge模型的最高精确度为87.8% ，这明显超过了所有在ImageNet-21K预训练的ViT变种模型。
作者总结道，与BEiT方法相比， MAE更准确、更简单、更高效。

文章图片
网友：respect
「现在是2021年11月12日中午，恺明刚放出来几个小时，就预定了CVPR2022bestpapercandidate（这里说的是bestpapercandidate ，不是bestpaper）」
这篇文章推翻了之前视觉自监督领域的统领范式（NLP里面确实用的比较多，但是CV里面用的并不多），提出了简单本质有效的自监督方法:基于mask和autoencoder的恢复方法。

文章图片
「大致看了一遍，做的很solid ，在iGPT和BEiT的基础上，化繁为简，找出了最关键的点，能够让BERT式预训练在CV上也能训到很好！未来可以预见能比肩GPT3的CV大模型不远矣。」

文章图片
「只想说，凯明大佬cv封神！！！膜拜大佬，求今年cvpr中签。」

文章图片
作者介绍
何恺明，本科就读于清华大学，博士毕业于香港中文大学多媒体实验室。

文章图片
2011年加入微软亚洲研究院（MSRA）工作，主要研究计算机视觉和深度学习。 2016年，加入FacebookAIResearch（FAIR）担任研究科学家。
2020年1月11日，荣登AI全球最具影响力学者榜单。
参考资料：
https://arxiv.org/abs/2111.06377
https://www.zhihu.com/question/498364155/answers/updated
https://www.zhihu.com/question/498364155/answer/2219622610