patch成为了ALL You Need？挑战ViT、MLP-Mixer的简单模型来了

机器之心报道
机器之心编辑部
ViT（VisionTransformer）等视觉模型的强大性能，是来自于Transformer ，还是被忽略的patch？有研究者提出了简单ConvMixer模型进行证明，直接将patch作为输入，实验表明， ConvMixer性能优于ResNet等经典视觉模型，并且在类似的参数计数和数据集大小方面也优于ViT、MLP-Mixer及其一些变体。
近年来，深度学习系统中的卷积神经网络在处理计算机视觉任务中，一直占据主要地位。但最近，基于Transformer模型的架构，例如ViT（VisionTransformer）架构（Dosovitskiy等人， 2020年），在许多任务中都表现出了引人注目的性能，它们通常优于经典卷积网络，尤其是在大型数据集上表现更佳。
我们可以假设， Transformer成为视觉领域的主导架构只是时间问题，就像它们在NLP领域中一样。然而，为了将Transformer应用于图像领域，信息的表示方法必须改变：因为如果在每像素级别上应用Transformer中的自注意力层，它的计算成本将与每张图像的像素数成二次方扩展，所以折衷的方法是首先将图像分成多个patch ，再将这些patch线性嵌入，最后将transformer直接应用于此patch集合。
我们不禁会问：像ViT这种架构强大的性能是来自Transformer ，还是至少部分是由于使用patch作为输入表示实现的？
在本文中，研究者为后者提供了一些证据：具体而言，该研究提出了ConvMixer ，这是一个极其简单的模型，在思想上与ViT和更基本的MLP-Mixer相似，这些模型直接将patch作为输入进行操作，分离空间和通道维度的混合，并在整个网络中保持相同的大小和分辨率。然而，相比之下，该研究提出的ConvMixer仅使用标准卷积来实现混合步骤。尽管它很简单，但研究表明，除了优于ResNet等经典视觉模型之外， ConvMixer在类似的参数计数和数据集大小方面也优于ViT、MLP-Mixer及其一些变体。

文章图片
论文地址：https://openreview.net/pdf?id=TVHS5Y4dNvMGithub地址：https://github.com/tmp-iclr/convmixer特斯拉AI高级总监AndrejKarpathy在其个人社交网站推特上感叹道：我被新的ConvMixer架构震撼了。

文章图片
有网友认为：「这项研究具有很重要的理论意义，因为它挑战了ViT有效性的原因。」

文章图片
还有网友表示：「作为消融实验，我认为很有趣。我不认为这篇论文的目的是表达『ConvMixer是一个好的架构，值得研究者使用』，而是『这个简单的架构有效的帮助我们缩小了其他模型最有价值的特性范围』。」

文章图片
一个简单的模型：ConvMixer
ConvMixer由一个patch嵌入层和一个简单的全卷积块的重复应用组成。该研究保持patch嵌入的空间结构，如下图2所示。 patch大小为p和嵌入维度为h的patch嵌入可以实现具有c_in输入通道、h个输出通道、内核大小p和步长p的卷积：

文章图片
ConvMixer块本身由depthwise卷积（即组数等于通道数h的分组卷积）和pointwise（即内核大小为1×1）卷积组成。每个卷积之后是一个激活函数和激活后的BatchNorm：

文章图片
在ConvMixer块的多次应用之后，执行全局池化以获得大小为h的特征向量，并将其传递给softmax分类器。