50亿图文中提取中文跨模态基准,奇虎360预训练框架超越多项SOTA( 四 )
目标导向型蒸馏:为了降低从噪声标签中学习的风险 , 研究者建议采用动量更新编码器产生的软目标(softtarget) 。 这里 , 动量更新编码器作为蒸馏的教师模型 , 由指数移动平均权重得到 。
研究者通过系数α将相似度得分s(·,·)与one-hot标签y(·,·)相结合 , 以生成最终的soft标签 。 将

文章图片
和

文章图片
表示为最终soft标签 。 以

文章图片
为例 , 可定义为:

文章图片
考虑到队列中特征的有效性随着时间步长的增加而降低 , 研究者还维护了一个加权队列w来标记相应位置特征的可靠性 。 具体来说 , 除了新传入的项之外 , 该研究每次迭代都将队列中的每个元素衰减0.99倍 。 因此 , 研究者将

文章图片
替换为等式2中的加权交叉熵损失

文章图片
。 使用目标导向型蒸馏 ,

文章图片
定义为:

文章图片
特征导向型蒸馏:与TgD类似 , 研究者采用教师-学生范式进行特征导向型蒸馏 。 以文本编码器为例 , 学生模型是文本编码器 , 而教师模型是通过动量更新的编码器 。
为了进一步提高模型性能 , 研究者对输入采用掩码策略 。 在具体实现中 , 将完整的输入提供给教师模型 , 将经过遮盖的输入提供给学生 。 依靠动量机制 , 目标是让学生的特征更接近教师的特征 。 形式上 , 教师和学生模型的预测分布分别定义如下:

文章图片
研究者利用交叉熵损失进行特征导向型蒸馏 , 损失L_FgD定义为:

文章图片
最后用整体预训练目标进行模型训练:

文章图片
实验结果
从下表2中可以看出 , 研究者提出的模型在绝大多数任务中都超越了此前的SOTA , 即使仅使用2.3M样本(约为Wukong数据大小的2.3%)进行训练时也是如此 。 对23M样本进行预训练时 , 结果更好 。 在模型层面 , R2D2ViT-L也在所有数据集中都优于R2D2ViT-B , 表明随着预训练模型变大 , 算法效果会变好 。

文章图片
研究者还在所提出的下游数据集上进行实验 , 这些实验结果成为所提出数据集的基线 。 特别地 , 在Flickr30k-CNA上进行实验时 , 研究者使用Flickr30k-CNA的训练集精调预训练模型 , 并在Flickr30k-CN的测试集上测试以进行公平比较 。 从表2可以看出 , 在Flickr30k-CNA上微调的R2D2优于在Flickr30k-CN上微调的R2D2 , 因为人工翻译的Flickr30k-CNA的质量远高于机器翻译的Flickr30k-CN 。
与图文检索不同 , 有关中文的图文匹配(ITM)任务的数据集很少 。 研究者提出了针对中文ITM任务的图像标题匹配数据集(ICM)和图像查询匹配数据集(IQM) , 并给出了相应的结果 。
研究者使用了AUC作为评价指标 。 从下表1中可以看出 , R2D2ViT-L比R2D2ViT-B取得了更好的结果 。 此外 , R2D2ViT-L(23M)在ICM和IQM上的表现分别比R2D2ViT-L(2.3M)高出约4.97%、5.68% 。 这意味着更多的中文高质量数据能够提高R2D2的泛化能力 。
- 投资|14万股东懵了!宁德时代刚募资450亿 就拿230亿买理财
- 在昨日推文中,王者荣耀将以“____文化”为主题推出限定皮肤,为乡村振兴加油? 王者荣耀6月28日每日一题答案
- 图像传感器|到手1849元重量189g这才是高性价比的骁龙870直屏手机
- 够我国用130年!南海可燃冰试采成功,资源量相当于650亿吨石油
- 华为nova 10定档7月4日见!真机渲染图曝光:星耀环设计
- 疑似iQOO 10系列渲染图被曝:背部拼接设计辨识度拉满
- GeForce|英伟达GeForce RTX 4090系列渲染图曝光:FE版将超过三槽规格
- 索尼|索尼电视就是最好的吗?
- |串口通信问题排查指南
- 图像处理|懂点AI或图像处理,一般性抠图作图连PS都不用了
