AI能读懂40种语言,背后是中国团队22年坚守( 二 )

文章图片
不过 , 在上个月的最新排名中 , 哈工大讯飞联合实验室(HFL)团队以总平均分84.1分的成绩再次刷新了这个记录 。
HFL的CoFe模型在四项任务中 , 有三项都超过了微软T-ULRv5XL模型创造的记录 , 另外一项则与其持平 。 
文章图片
对此 , 哈工大讯飞联合实验室提出了三项技术 , 从而让模型具有多语言理解与跨语言迁移能力 。
第一 , 加入了自主研发的跨语言对比学习技术 , 鼓励模型学习不同语言中的语义相似性 。
CoFe利用多语言的同义句对作为正样本 , 易混淆与反义句对作为高难度负样本 , 以对比学习和分类任务为训练目标 , 让模型比较与学习不同语言文本背后的语义 。 
文章图片
在上图的例子中 , 对于源语言(中文)中的句子A「所有人都看着他」 , 以英文中的同义句B「Alleyesturnedtohim」为正样本 , 法语中的反义句C「Iln'apasattirél'attention」为高难度负样本 , 其他句子作为普通负样本训练模型 , 达到让模型习得跨语言理解句子语义的目的 。
第二 , 利用知识蒸馏技术进行自监督学习和知识迁移 , 进一步提升了模型在各个语言上效果的稳定性 。
知识蒸馏技术除了可以用于模型压缩与加速 , 对提升模型的性能与稳定性也有很大帮助 。 因此 , CoFe从多个角度对其进行了开发利用:
通过自监督训练 , 让模型自我蒸馏 , 提升稳定性;
多语-单语的多到一知识迁移 。 所谓三人行必有我师 , 让多语言学生模型从多个单语言教师模型学习知识 , 博采众长;
多语言多模型蒸馏 。 将多个多语言教师蒸馏至单一模型 , 从而提供更优的教师指导信号 。 
文章图片
第三 , 融入细粒度的语言学特征 , 帮助模型克服训练不足的困难 , 解决低资源语言学习不充分的问题 , 同时使之适应不同语言的形态学特点 。
例如对于一些书写系统比较特殊的低资源语言 , CoFe中引入了额外的分词系统 , 以帮助模型在少量数据精调下更迅速地掌握理解该语言的能力 。
从而让机器可以在少量其他语言语料的情况下 , 通过「类比」学会这门语言 , 减少了收集语料、语音标注等大量工作 。 
文章图片
在另一个更加关注小语种语音技术的OpenASR比赛中 , 科大讯飞-中科大语音及语言信息处理国家工程实验室(USTC-NELSLIP)联合团队参加了所有15个语种受限赛道和7个语种非受限赛道 , 并全部取得第一名的成绩 。 
文章图片
小语种语音数据难以获取不仅表现在语音的数据量上 , 更表现在语料丰富性 , 发音词典大小以及标注准确度上 。 对于许多低资源语种 , 姑且不说上万小时语音数据 , 就连100小时标注数据的获取也举步维艰 。
为此 , 世界语音学术领域的权威组织美国国家标准与技术研究院NIST(NationalInstituteofStandardsandTechnology)在2020年底 , 举办了OpenASR(OpenAutomaticSpeechRecognition)比赛 。
今年更是将语言增加到了15个语种 , 涵盖受限赛道(Constrainedcondition)、受限附加赛道(ConstrainedPlus)和非受限赛道(UnconstrainedCondition) 。
此外 , 比赛中各个语种数据主要来自电话信道 , 口语化特征十分明显 , 对话风格非常自由 , 也使得语音识别难上加难 。
- 微信又出新功能,事关支付限额
- 滴滴出行|裁员真能拯救中国互联网?
- 高地|上海:瞄准千亿元规模布局氢能产业
- 苹果|美科技巨头每秒能赚多少钱?苹果11376元
- 厨房|刀可切菜灶可加热 儿童厨房玩具安全不能忽视
- 为什么科学家表示人类“灭绝”的可能性极低?这些理由你赞同吗?
- ios16|一步到位能用5年,目前这3款手机能闭眼入,买手机不要太小气
- 月球也在太阳系的宜居带中,为何不能产生生命?原来个头太小了
- 微信更新正式版!“清理缓存”功能变强,小程序终于能分享到朋友圈
- 新发现恐龙可能在灾难性的太空岩石撞击地球之前就已经灭绝了
