AI能读懂40种语言，背后是中国团队22年坚守( 二 )

文章图片
不过，在上个月的最新排名中，哈工大讯飞联合实验室（HFL）团队以总平均分84.1分的成绩再次刷新了这个记录。
HFL的CoFe模型在四项任务中，有三项都超过了微软T-ULRv5XL模型创造的记录，另外一项则与其持平。

文章图片
对此，哈工大讯飞联合实验室提出了三项技术，从而让模型具有多语言理解与跨语言迁移能力。
第一，加入了自主研发的跨语言对比学习技术，鼓励模型学习不同语言中的语义相似性。
CoFe利用多语言的同义句对作为正样本，易混淆与反义句对作为高难度负样本，以对比学习和分类任务为训练目标，让模型比较与学习不同语言文本背后的语义。

文章图片
在上图的例子中，对于源语言（中文）中的句子A「所有人都看着他」，以英文中的同义句B「Alleyesturnedtohim」为正样本，法语中的反义句C「Iln'apasattirél'attention」为高难度负样本，其他句子作为普通负样本训练模型，达到让模型习得跨语言理解句子语义的目的。
第二，利用知识蒸馏技术进行自监督学习和知识迁移，进一步提升了模型在各个语言上效果的稳定性。
知识蒸馏技术除了可以用于模型压缩与加速，对提升模型的性能与稳定性也有很大帮助。因此， CoFe从多个角度对其进行了开发利用：
通过自监督训练，让模型自我蒸馏，提升稳定性；
多语-单语的多到一知识迁移。所谓三人行必有我师，让多语言学生模型从多个单语言教师模型学习知识，博采众长；
多语言多模型蒸馏。将多个多语言教师蒸馏至单一模型，从而提供更优的教师指导信号。

文章图片
第三，融入细粒度的语言学特征，帮助模型克服训练不足的困难，解决低资源语言学习不充分的问题，同时使之适应不同语言的形态学特点。
例如对于一些书写系统比较特殊的低资源语言， CoFe中引入了额外的分词系统，以帮助模型在少量数据精调下更迅速地掌握理解该语言的能力。
从而让机器可以在少量其他语言语料的情况下，通过「类比」学会这门语言，减少了收集语料、语音标注等大量工作。

文章图片
在另一个更加关注小语种语音技术的OpenASR比赛中，科大讯飞-中科大语音及语言信息处理国家工程实验室（USTC-NELSLIP）联合团队参加了所有15个语种受限赛道和7个语种非受限赛道，并全部取得第一名的成绩。

文章图片
小语种语音数据难以获取不仅表现在语音的数据量上，更表现在语料丰富性，发音词典大小以及标注准确度上。对于许多低资源语种，姑且不说上万小时语音数据，就连100小时标注数据的获取也举步维艰。
为此，世界语音学术领域的权威组织美国国家标准与技术研究院NIST（NationalInstituteofStandardsandTechnology）在2020年底，举办了OpenASR(OpenAutomaticSpeechRecognition)比赛。
今年更是将语言增加到了15个语种，涵盖受限赛道（Constrainedcondition）、受限附加赛道（ConstrainedPlus）和非受限赛道（UnconstrainedCondition）。
此外，比赛中各个语种数据主要来自电话信道，口语化特征十分明显，对话风格非常自由，也使得语音识别难上加难。