AI能读懂40种语言,背后是中国团队22年坚守( 三 )
团队在比赛中提出了基于语音和文本统一空间表达的半监督语音识别框架(UnifiedSpatialRepresentationSemi-supervisedASR , USRS-ASR) , 获此佳绩也验证了该算法良好的推广性 。 
文章图片
受限赛道15个语种的成绩
在受限赛道上 , 由于每个语种只有10小时语音数据 , 如何使用少量文本数据 , 利用无监督的方法增加语音训练数据的多样性至关重要 。
团队运用Flow-TTS语音合成进行训练数据扩增 , 并使用语音属性解耦技术保证合成语音的多样性 。
结果显示 , 使用上述无监督数据扩增方案 , 能够稳定、显著地提升低资源语音识别任务的效果 。 
文章图片
非受限赛道7个语种的成绩
而在非受限赛道上 , 虽然可以利用公开的语音数据 , 但数据总量仍只有数百小时 , 而且语音数据和文本数据的量级差距十分明显 , 这对于端到端识别框架来说 , 弊端更为明显 。
为了在端到端统一框架下 , 充分使用少量语音数据和海量文本数据 , 团队提出了基于语音和文本统一空间表达的半监督语音识别框架USRS-ASR:
- 微信又出新功能,事关支付限额
- 滴滴出行|裁员真能拯救中国互联网?
- 高地|上海:瞄准千亿元规模布局氢能产业
- 苹果|美科技巨头每秒能赚多少钱?苹果11376元
- 厨房|刀可切菜灶可加热 儿童厨房玩具安全不能忽视
- 为什么科学家表示人类“灭绝”的可能性极低?这些理由你赞同吗?
- ios16|一步到位能用5年,目前这3款手机能闭眼入,买手机不要太小气
- 月球也在太阳系的宜居带中,为何不能产生生命?原来个头太小了
- 微信更新正式版!“清理缓存”功能变强,小程序终于能分享到朋友圈
- 新发现恐龙可能在灾难性的太空岩石撞击地球之前就已经灭绝了
