patch成为了ALL You Need？挑战ViT、MLP-Mixer的简单模型来了( 二 )

设计参数：ConvMixer的实例化取决于四个参数：（1）宽度或隐藏维度h（即patch嵌入的维度），（2）深度d ，或ConvMixer层的重复次数，（3)控制模型内部分辨率的patch大小p ， (4)深度卷积层的内核大小k 。研究者根据它们的隐藏维度和深度命名ConvMixers ，如ConvMixer-h/d 。他们将原始输入大小n除以patch大小p作为内部分辨率；但是请注意， ConvMixers支持可变大小的输入。
动机：ConvMixer架构基于混合思想。具体地，该研究选择了depthwise卷积来混合空间位置，选择pointwise卷积来混合通道位置。先前工作的一个关键思想是MLP和自注意力可以混合较远的空间位置，即它们可以具有任意大的感受野。因此，该研究使用较大的内核卷积来混合较远的空间位置。
实验结果
研究者首先在CIFAR-10上执行了小规模的实验，其中ConvMixers仅使用0.7M的参数实现了96%以上的准确率，验证了卷积归纳偏置的数据高效性。
此外，研究者不使用任何预训练或额外数据，在ImageNet-1k分类数据集上对ConvMixers进行了评估。他们将ConvMixer添加到timm框架中，并使用近乎标准的设置进行训练，包括默认timm增强、RandAugment、mixup、CutMix、随机删除（randomerasing）和梯度标准裁剪。
研究者还使用了AdamW优化器和一个简单的triangular学习速度时间表。由于计算受限，他们没有在ImageNet上进行超参数调整，并较竞品模型训练了更少的epoch 。
结果如下表1所示。参数量为52M的ConvMixer-1536/20在ImageNet上实现了81.4%的top-1准确率，参数量为21M的ConvMixer-768/32实现了80.2%的top-1准确率。更宽的ConvMixers在训练epoch更少时出现收敛，但需要内存和计算。当卷积核更大时表现也很好：当卷积核大小从K=9降至K=3时， ConvMixer-1536/20的准确率大约降了1% 。当patch更小时， ConvMixers的表现明显更好。因此，研究者认为，更大的patch需要更深的ConvMixers 。他们使用ReLU训练了一个模型，以证明GELU是不必要的。
ConvMixers模型和训练设置与DeiT非常相似。在最近的各向同性模型中，研究者认为DeiT和ResMLP是最公平的竞品模型，并且使用相同的过程训练了ResNet（它的原始结果已经过时了）。从表1和下图1可以看到， ConvMixer在给定的参数预算下实现了具有竞争力的结果：ConvMixer-1536/20在使用明显更少参数的情况下，优于ResNet-152和ResMLP-B24 ，并能够与DeiT-B竞争。不仅如此， ConvMixer-768/32仅使用ResNet-152的1/3参数，就实现了与之相似的准确率。

文章图片
【patch成为了ALL You Need？挑战ViT、MLP-Mixer的简单模型来了】但是， ConvMixers的推理速度较竞品模型慢得多，这可能因为它们的patch更小。超参数调整和优化可以缩小这一差距，具体参见下表2：

文章图片