多模态视频理解模型新标杆！微软黄学东团队发布 i-Code

文章图片
黄学东领衔，微软Azure认知服务研究团队重磅发布「视觉-语言-语音」多模态预训练模型i-Code 。在5项多模态视频理解任务以及GLUENLP任务上树立了业界新标杆！编译丨OGAI编辑丨陈彩娴
人类的智能涉及多个模态：我们整合视觉、语言和声音信号，从而形成对世界全面的认识。然而，目前大多数的预训练方法仅针对一到两种模态设计。
在本文中，我们提出了一种多模态自监督预训练框架「i-Code」，用户可以灵活地将视觉、语音和语言的形式组合成统一的通用的向量表征。在该框架下，我们首先将各个模态的数据输入给预训练的单模态编码器。接着，我们通过多模态融合网络集成各单模态编码器的输出，该网络使用新型注意力机制等架构创新，有效地融合了不同模态的信息。
我们使用新的目标端到端地预训练整个系统，新的目标包括掩码模态单元建模和交叉模态对比学习。不同于以往只使用视频进行预训练的研究， i-Code框架可以在训练和推理过程中动态处理单模态、双模态和三模态数据，灵活地将不同的模态组合投影到单个表示空间中。实验结果表明，在5个视频理解任务和GLUENLP基准测试上， i-Code的表现相较于目前最先进的技术的提升高达11% ，展示了集成多模态预训练的威力！
1引言真正的类人智能要考虑来自各种信号和感觉器官的信息。智能系统应该是综合的，引入来自所有可用模式的信号。在许多实际的数据体系中，我们可以利用视觉（V）、语言（L）和语音/音频（S）模态的数据。目前，研究者们在建立理解单模态、双模太的模型方面取得了巨大的进展，然而将这些工作推广到能够同时解译视觉、语言、语音的三模态系统上仍然是一项艰巨的任务。
三模态训练需要大量的三模态数据（例如，带文字描述的视频），而此类数据的规模往往比可用的单模态或双模态数据小好几个数量级。例如，目前最大的带标注的视频数据集由1.8亿段视频组成，而最大的图像描述数据集则包含高达9亿个图文对。
为了解决该问题，本文提出了两种解决方案。首先，除了三模态视频，我们还利用了大规模的双模态数据，例如：带有文本描述的图像（V+L）、带有转写文本的语音（S+L）和视频描述（V+S）。这极大地扩展了模型输入数据的规模和多样性，同时涵盖了全部三种目标模式。其次，我们提出了一种融合架构，可以采用研究社区提出的最先进的单模态编码器的上下文输出，而非从头开始构建一个独立的模型。
本文提出了「i-Code」,其中i代表集成多模态学习。我们开发了一个有效的融合模块，该模块集成了单模态编码器的输出，进行跨模态理解，从而获得最终的预测结果。为了设计最佳的融合架构，我们试验了多种Transformer架构内的自注意机制的变体，包括交叉和合并不同模态的注意力得分的机制。
接着，我们使用各种自监督目标利用双模态和三模态数据对i-Code进行预训练。这些目标包括：（1）掩码单元建模。其中所有输入信号都被转换为离散的词例（Token），旨在预测各模态下的被遮蔽的单元的正确词例。（2）对比学习。给定两种输入模态，模型预测给定的信号是否来自训练数据中的同一个三元组（或数据对）。
我们在多个多模态对比基准上彻底评估了i-Code 。实验结果证明了所提出的多模态预训练框架的有效性。对i-Code进行微调，相较目前最先进，我们可以在6个多模态数据集和GLUENLP基准测试中的算法获得11%的性能提升。