游戏|《英雄联盟》S11直播延迟30秒!这次网友反应有点不太一样( 二 )
对于不同直播来说,选择语音识别方法时,主要会从准确率和识别速度进行考量,像新闻直播更重视准确率,娱乐赛事直播更侧重识别速度 。
文章图片
BUT,对于无障碍来说,赛事直播还会出现新的挑战:
由于听障人士无法快速建立视听之间的联系,错字词需要更多反应时间,字幕的准确性要更高;此外,转录的字句需要有一定视觉流畅性;最后,赛事直播的延迟也不能太高 。
一方面,受限于语音的停顿、音频切分的长度,流式ASR目前能做到低延迟和基本的准确率,但往往视觉阅读的流畅性会有所降低,“每个字都会,停顿后就看不懂了”:
文章图片
每个字都会,就是看不懂
另一方面,流式ASR模型需要满足一定长度的音频输入,才会处理并输出文字,非常依赖语速和说话流畅度的稳定 。
例如,主持人通常在电竞团战或是进球前夕等情况下,语速变得非常快(例如华少最快能达到18秒215字),或是因为思考出现频繁断句,就会严重影响流式ASR技术的“发挥” 。
在这种情况下,流式ASR语音识别的结果如不经过处理、直接输出的话,就会出现字幕空白、频繁停顿,或是大段爆发输出的情况 。
为了让字幕流更加稳定(能输出整段整句)、准确率也更高,B站在采用讯飞听见技术进行流式ASR识别(毫秒级延迟)时,选择将无障碍直播间整体进行适当延迟,来确保阅读流畅性,主要做了这些操作:
其一,B站专门梳理了英雄联盟赛事相关的500+专有词汇,包括战队、选手、赛区、游戏英雄名称、比赛术语、解说相关术语、S赛名句等等,将这些词汇接入到讯飞听见服务器中,进行转译结果优化处理;
其二,针对语速不稳定的情况,在文字处理部分,B站将流式ASR输出的文字,根据阅读习惯进行自动换行,使之更符合用户的视觉理解;
其三,针对整体阅读体验,B站专门制作了一款辅助软件,将人工复查操作进一步流程化,进一步为听障人士提升字幕准确率……
文章图片
这也解释了B站无障碍直播间略有延迟的原因:提升了字幕阅读体验 。
不止实时语音识别技术
事实上,这个无障碍电竞赛事直播间,还不止语音技术服务这么简单 。
比如,手语直播了解一下?
文章图片
B站邀请了手语翻译的代表人物韩清泉老师,由其领衔的专业翻译团队来进行手语辅助,他们会在赛果播报及赛后采访环节提供实时手语翻译 。
此外,在每个比赛日,直播间还推出了观赛小助手,即手语教学内容 。像网友都很好奇的超神、一血、补刀、中单、辅助、经济等这些热门词汇,此前都已经一一亮相 。
文章图片
不少人认为,之所以上线手语辅助功能,是因为语音转字幕会出错,而手语能够帮助理解 。
实际上,还有更深层次的原因 。
韩清泉老师解释说,对于会手语的朋友而言,如果只有文字和手语两种交流方式可供选择,他们一定会毫不犹豫选择手语,因为用手语交流会有强烈的代入感 。通过这种方式,听障朋友们就能强烈感受到被这么多人关注着 。
- 最前线 | 腾讯游戏发布40余款产品与项目,《王者荣耀》发布全新规划
- 腾讯游戏发布40余款产品与项目,《王者荣耀》发布全新规划
- 和真的几乎一样,这个仿生蜻蜓,要实现《沙丘》里的扑翼机了
- 格力电器|游戏玩家超爱!雷神27英寸Fast-IPS显示器现在入手
- 显卡|如何组装旗舰游戏电脑?这里有你想要的答案
- 《悦程出行》PS4游戏,手把手教你退款!绝对靠谱!
- 剧透:戚薇马天宇《你好,安怡》聚焦2035年人工智能,你期待吗?
- 黄渤让四位导师演戏演到崩溃,王一博撒娇,钟汉良一秒入戏
- 充满“眺望感”的《预见2050》,梦想追逐永远在“现在进行时”
- NVIDIA的DLSS技术已经深受玩家和开发者认可|性能2倍于DLSS!AMD游戏神技FSR 2.0正式支持Xb
