最新的语音合成技术太屌！讯飞的效果已经完败

jun4rui

大都督

1^# 大中小发表于 2016-9-12 06:05 显示全部帖子

posted by wap, platform: Chrome
可惜，这玩意暂时没法商用，效果真的太赞了！已经能很好的模仿语调，情感和口音，和常见的差距太大，需要佛跳墙

传统参数控制
https://storage.googleapis.com/d ... se/parametric-1.wav
https://storage.googleapis.com/d ... se/parametric-2.wav

传统的拼接技术
https://storage.googleapis.com/d ... concatenative-1.wav
https://storage.googleapis.com/d ... concatenative-2.wav

Google的神经网络AI语音合成技术
https://storage.googleapis.com/d ... inese/wavenet-1.wav
https://storage.googleapis.com/d ... inese/wavenet-2.wav

官方博客还有同一句话的不同人+语气说出来的效果https://deepmind.com/blog/wavenet-generative-model-raw-audio/，太赞了！从来没想过AI居然能用在这方面啊

本帖最后由 jun4rui 于 2016-9-11 10:08 通过手机版编辑

TOP

jun4rui

大都督

2^# 大中小发表于 2016-9-12 12:01 显示全部帖子

posted by wap, platform: Samsung

原帖由 @大饼大大于 2016-9-11 15:40 发表
我记得科塔纳当时也是吹一波，还会唱歌，后来装上发现也就那样

现在要挑战初音未来了，不过效果和几年前bilibili上用户自制的差不多。这个强多了，首先也不是完全听不出合成的痕迹，但是很少了，有些语调语气下很难察觉。同一句话下，不同参数搭配出来的语调语气差异明显不同，这一点太牛逼

TOP

jun4rui

大都督

3^# 大中小发表于 2016-9-12 14:14 显示全部帖子

posted by wap, platform: Chrome

原帖由 @HDE 于 2016-9-11 16:04 发表
目前最强的还是初音家族吧，我觉得没有人为调教不太现实。

初音差远了，初音本来就是必须调教的，不调教没法用啊。bilibili过年的时候有个初音引擎做的相声，效果比讯飞惨烈多了，你可以点这里观摩一下

TOP