多模态视频理解模型新标杆!微软黄学东团队发布 i-Code( 五 )
实验结果表明 , i-Code大幅提升了多模态模型的性能 , 相较于之前最先进的模型 , 其平均得分提高了11% 。 与之前的纯语言模型相比 , i-Code也表现出了更强的性能 , 在7个任务以及整体性能上都超过了DeBERTaV3 。
以往 , 多模态模型(尤其是视觉语言模型)中的语言编码器的性能通常在只涉及语言的任务上相较于语言模型较弱 。 这种性能差距通常是由于多模态数据集中的语言数据质量较差导致的 。 我们推测 , 掩码语言建模目标以及语言-语音对比学习有助于i-Code缩小这一差距 。

文章图片
表7:在语言任务(GLUE)上与之前的模型的性能对比 。
6性能分析如表8所示 , 以MOSEI情感识别任务为例 , 我们发现仅使用单一模态数据时 , 语音是最有效的 。 这也许是因为音色能够反映出人类的情感 。 使用双模态数据比使用单模态数据的性能往往更好 。 在使用双模态数据时 , 使用「语言-语音」可以获得最佳的模型性能 。

文章图片
表8:CMUMOSEI情感识别任务上的模态消融实验结果
此外 , 在大规模多模态数据集上的自监督预训练显著提升了模型性能 。

文章图片
雷峰网
- 户外|“小眼镜”增多 专家支招教你科学用眼
- 苹果|美科技巨头每秒能赚多少钱?苹果11376元
- 社交|腾讯视频为IP编写「价值算法」
- 英特尔|两倍变焦自拍能有多大区别?苹果、三星、OPPO自拍样张解析
- 苹果|苹果多款新品已提上日程
- 拼多多|拼多多推出PC网页版商城,或只为缓解增长焦虑
- 宇宙中有多少维度,人类为何想要进入四维空间?科学家给出了解释
- 湖北|巅峰摩擦?i9 12950HX与R9 6900HX专业应用差距有多大?
- 拼多多|4P营销新理论
- 拼多多|拼多多网页版终于上线,最大短板补足了吗?
