patch成为了ALL You Need?挑战ViT、MLP-Mixer的简单模型来了( 二 )
设计参数:ConvMixer的实例化取决于四个参数:(1)宽度或隐藏维度h(即patch嵌入的维度) , (2)深度d , 或ConvMixer层的重复次数 , (3)控制模型内部分辨率的patch大小p , (4)深度卷积层的内核大小k 。 研究者根据它们的隐藏维度和深度命名ConvMixers , 如ConvMixer-h/d 。 他们将原始输入大小n除以patch大小p作为内部分辨率;但是请注意 , ConvMixers支持可变大小的输入 。
动机:ConvMixer架构基于混合思想 。 具体地 , 该研究选择了depthwise卷积来混合空间位置 , 选择pointwise卷积来混合通道位置 。 先前工作的一个关键思想是MLP和自注意力可以混合较远的空间位置 , 即它们可以具有任意大的感受野 。 因此 , 该研究使用较大的内核卷积来混合较远的空间位置 。
实验结果
研究者首先在CIFAR-10上执行了小规模的实验 , 其中ConvMixers仅使用0.7M的参数实现了96%以上的准确率 , 验证了卷积归纳偏置的数据高效性 。
此外 , 研究者不使用任何预训练或额外数据 , 在ImageNet-1k分类数据集上对ConvMixers进行了评估 。 他们将ConvMixer添加到timm框架中 , 并使用近乎标准的设置进行训练 , 包括默认timm增强、RandAugment、mixup、CutMix、随机删除(randomerasing)和梯度标准裁剪 。
研究者还使用了AdamW优化器和一个简单的triangular学习速度时间表 。 由于计算受限 , 他们没有在ImageNet上进行超参数调整 , 并较竞品模型训练了更少的epoch 。
结果如下表1所示 。 参数量为52M的ConvMixer-1536/20在ImageNet上实现了81.4%的top-1准确率 , 参数量为21M的ConvMixer-768/32实现了80.2%的top-1准确率 。 更宽的ConvMixers在训练epoch更少时出现收敛 , 但需要内存和计算 。 当卷积核更大时表现也很好:当卷积核大小从K=9降至K=3时 , ConvMixer-1536/20的准确率大约降了1% 。 当patch更小时 , ConvMixers的表现明显更好 。 因此 , 研究者认为 , 更大的patch需要更深的ConvMixers 。 他们使用ReLU训练了一个模型 , 以证明GELU是不必要的 。
ConvMixers模型和训练设置与DeiT非常相似 。 在最近的各向同性模型中 , 研究者认为DeiT和ResMLP是最公平的竞品模型 , 并且使用相同的过程训练了ResNet(它的原始结果已经过时了) 。 从表1和下图1可以看到 , ConvMixer在给定的参数预算下实现了具有竞争力的结果:ConvMixer-1536/20在使用明显更少参数的情况下 , 优于ResNet-152和ResMLP-B24 , 并能够与DeiT-B竞争 。 不仅如此 , ConvMixer-768/32仅使用ResNet-152的1/3参数 , 就实现了与之相似的准确率 。 
文章图片
【patch成为了ALL You Need?挑战ViT、MLP-Mixer的简单模型来了】但是 , ConvMixers的推理速度较竞品模型慢得多 , 这可能因为它们的patch更小 。 超参数调整和优化可以缩小这一差距 , 具体参见下表2:
文章图片
- 单项冠军|再添三家“小巨人”,青岛高新区梯度培育见成效
- 陨石|小行星“打水漂”闯入地球 形成世界最长陨石陨落带
- 成年后,近视度数还会再加深吗 蚂蚁庄园今日答案6月29日
- ssd|小屏旗舰跌至2699元,67W快充+5000万三摄,成荣耀70最大对手
- 创业|八成互联网电视非法采集用户数据, 彩电企业怎么办?
- 你用过的头像都成了明星,林彦俊走红网络,只有她默默无闻
- 为了证明人类可与黑猩猩结合,女科学家亲身试验,结果怎么样?
- 为了证明人类可以和猩猩“结合”,女科学家亲身实验,精神可佩
- 够我国用130年!南海可燃冰试采成功,资源量相当于650亿吨石油
- 量子纠缠存在于任何维度空间?人类如何逃出三维空间变成“神”?
