虽然日常和你对话的 Siri 声音机械|英伟达用AI给纪录片配音:情绪节奏稳稳拿捏 不说根本听不出来
虽然日常和你对话的Siri声音机械 , 还常常胡乱断句 , 但实际上 , 最新的技术进展显示 , AI的语音合成能力已经可以说得上是以假乱真 。
比如英伟达 , 最近就发布了一个更懂节奏、更具感情的语音合成AI 。
在英伟达的纪录片中 , 她的自我介绍口齿清晰自不必说 , 气息顿挫、情绪把控 , 播音员范儿绝对够正 。
帧级控制合成语音
英伟达将在9月3日的语音技术顶会Interspeech2021上展示该项目的最新成果 。
不过 , 其背后的技术 , 此前就已经帮助自家数字人在SIGGRAPHReal-TimeLive上摘下了最佳展示奖 。 
文章图片
核心是名为RAD-TTS的语音合成方法 。
这是一个并行的端到端TTS模型 。 与此前的并行方法不同 , RAD-TTS将语音节奏作为一个单独的生成分布来建模 。 如此 , 在推理过程中 , 语音的持续时间就能被更好地控制 。 
文章图片
从RAD-TTS的演示界面中也可以看出 , 用户可以在帧级别上控制合成语音的音调、持续时间和节奏力度 。 
文章图片
研究人员还介绍 , RAD-TTS既可以将任意文本转换成说话人的声音 , 也可以将一个说话人的声音(甚至是歌声)转换成另一个人的声音 。
也就是说 , 合成语音的制作人可以像指导配音演员一样去“指导”AI , 让它学会哪个单词应该重点突出、节奏如何把控更符合创作基调等等 。
机器语音能有多真实?
其实 , 不只是英伟达 , 此前 , 小冰也发布过超级自然语音技术 。
把一句人类的语音混进小冰的语音里 , 你能分辨到底哪一句来自真正的人类吗?
不过 , 小冰公司CEO李笛此前曾表示 , AI的声音太接近真人 , 就很有可能被滥用 。 因此小冰禁止为普通个人训练声音 。
但这样的技术 , 也正在通过电台、便利店等更多商业场景 , 走进人们的日常生活 。
【虽然日常和你对话的 Siri 声音机械|英伟达用AI给纪录片配音:情绪节奏稳稳拿捏 不说根本听不出来】来源:量子位
- 虽然正式版还尚早|iOS 16第二个测试版更新细节揭晓:苹果让锁屏更个性化
- iPhone 13深度使用半年,体验虽然流畅,但两个缺点却让人无奈!
- 虽然对于微软来说|微软确认windows1022h2功能更新
- 托尼开启日常的上网冲浪后|边充边玩手机电池不耐用怎么办?
- 智慧城市|ORICO 20Gbps全功能数据线满足日常生活所需
- 苹果|OPPOPad日常使用体验:2199元值不值得买?
- 虽然蚂蚁不能看到人类的存在,但这丝毫不影响它们成为建造专家
- 虽然没有牺牲,但他却是最不幸的宇航员,在太空漂流了311天
- 索尼|日常,索尼大佬晒出旧照片VS马斯克晒出巧合照
- 虽然iPhone14还没有出|iphone14概念机新配色曝光,网友:这有啥意义?
