50亿图文中提取中文跨模态基准，奇虎360预训练框架超越多项SOTA( 四 )

目标导向型蒸馏：为了降低从噪声标签中学习的风险，研究者建议采用动量更新编码器产生的软目标（softtarget）。这里，动量更新编码器作为蒸馏的教师模型，由指数移动平均权重得到。
研究者通过系数α将相似度得分s(·,·)与one-hot标签y(·,·)相结合，以生成最终的soft标签。将

文章图片
和

文章图片
表示为最终soft标签。以

文章图片
为例，可定义为：

文章图片
考虑到队列中特征的有效性随着时间步长的增加而降低，研究者还维护了一个加权队列w来标记相应位置特征的可靠性。具体来说，除了新传入的项之外，该研究每次迭代都将队列中的每个元素衰减0.99倍。因此，研究者将

文章图片
替换为等式2中的加权交叉熵损失

文章图片
。使用目标导向型蒸馏，

文章图片
定义为：

文章图片
特征导向型蒸馏：与TgD类似，研究者采用教师-学生范式进行特征导向型蒸馏。以文本编码器为例，学生模型是文本编码器，而教师模型是通过动量更新的编码器。
为了进一步提高模型性能，研究者对输入采用掩码策略。在具体实现中，将完整的输入提供给教师模型，将经过遮盖的输入提供给学生。依靠动量机制，目标是让学生的特征更接近教师的特征。形式上，教师和学生模型的预测分布分别定义如下：

文章图片
研究者利用交叉熵损失进行特征导向型蒸馏，损失L_FgD定义为：

文章图片
最后用整体预训练目标进行模型训练：

文章图片
实验结果
从下表2中可以看出，研究者提出的模型在绝大多数任务中都超越了此前的SOTA ，即使仅使用2.3M样本（约为Wukong数据大小的2.3%）进行训练时也是如此。对23M样本进行预训练时，结果更好。在模型层面， R2D2ViT-L也在所有数据集中都优于R2D2ViT-B ，表明随着预训练模型变大，算法效果会变好。

文章图片
研究者还在所提出的下游数据集上进行实验，这些实验结果成为所提出数据集的基线。特别地，在Flickr30k-CNA上进行实验时，研究者使用Flickr30k-CNA的训练集精调预训练模型，并在Flickr30k-CN的测试集上测试以进行公平比较。从表2可以看出，在Flickr30k-CNA上微调的R2D2优于在Flickr30k-CN上微调的R2D2 ，因为人工翻译的Flickr30k-CNA的质量远高于机器翻译的Flickr30k-CN 。
与图文检索不同，有关中文的图文匹配(ITM)任务的数据集很少。研究者提出了针对中文ITM任务的图像标题匹配数据集(ICM)和图像查询匹配数据集(IQM) ，并给出了相应的结果。
研究者使用了AUC作为评价指标。从下表1中可以看出， R2D2ViT-L比R2D2ViT-B取得了更好的结果。此外， R2D2ViT-L(23M)在ICM和IQM上的表现分别比R2D2ViT-L(2.3M)高出约4.97%、5.68% 。这意味着更多的中文高质量数据能够提高R2D2的泛化能力。