多模态视频理解模型新标杆！微软黄学东团队发布 i-Code( 五 )

实验结果表明， i-Code大幅提升了多模态模型的性能，相较于之前最先进的模型，其平均得分提高了11% 。与之前的纯语言模型相比， i-Code也表现出了更强的性能，在7个任务以及整体性能上都超过了DeBERTaV3 。
以往，多模态模型（尤其是视觉语言模型）中的语言编码器的性能通常在只涉及语言的任务上相较于语言模型较弱。这种性能差距通常是由于多模态数据集中的语言数据质量较差导致的。我们推测，掩码语言建模目标以及语言-语音对比学习有助于i-Code缩小这一差距。

文章图片
表7：在语言任务（GLUE）上与之前的模型的性能对比。
6性能分析如表8所示，以MOSEI情感识别任务为例，我们发现仅使用单一模态数据时，语音是最有效的。这也许是因为音色能够反映出人类的情感。使用双模态数据比使用单模态数据的性能往往更好。在使用双模态数据时，使用「语言-语音」可以获得最佳的模型性能。

文章图片
表8：CMUMOSEI情感识别任务上的模态消融实验结果
此外，在大规模多模态数据集上的自监督预训练显著提升了模型性能。

文章图片
雷峰网