搞多模态不了解最新进展？中科院自动化所撰文首个视觉-语言预训练综述( 三 )

在检索任务中，视觉-语言检索(VLR)通过适当的匹配策略来理解视觉（图像或视频）和语言，其包括两个子任务，视觉到文本检索和文本到视觉检索，其中视觉到文本检索是根据视觉从更大的描述池中获取最相关的文本描述，反之亦然。