Board logo

标题: 最新的语音合成技术太屌!讯飞的效果已经完败 [打印本页]

作者: jun4rui    时间: 2016-9-12 06:05     标题: 最新的语音合成技术太屌!讯飞的效果已经完败

posted by wap, platform: Chrome
可惜,这玩意暂时没法商用,效果真的太赞了!已经能很好的模仿语调,情感和口音,和常见的差距太大,需要佛跳墙

传统参数控制
https://storage.googleapis.com/d ... se/parametric-1.wav
https://storage.googleapis.com/d ... se/parametric-2.wav

传统的拼接技术
https://storage.googleapis.com/d ... concatenative-1.wav
https://storage.googleapis.com/d ... concatenative-2.wav

Google的神经网络AI语音合成技术
https://storage.googleapis.com/d ... inese/wavenet-1.wav
https://storage.googleapis.com/d ... inese/wavenet-2.wav



官方博客还有同一句话的不同人+语气说出来的效果https://deepmind.com/blog/wavenet-generative-model-raw-audio/,太赞了!从来没想过AI居然能用在这方面啊

本帖最后由 jun4rui 于 2016-9-11 10:08 通过手机版编辑
作者: u571    时间: 2016-9-12 06:37

posted by wap, platform: Chrome
不能商用的原因是需要计算量比较大,还需要进一步优化。

WaveNet最吸引人的是这个模型算法有很强的借鉴意义,对于语音识别和新一代纯物理音效等等都有革命性改进

所以深度学习这个技术真的是深不可测,不愧是扎克伯格称为可以改变人类未来的重大技术突破
作者: 加州IT男    时间: 2016-9-12 06:49

还能做曲了
太科幻了
作者: eastwoodwest    时间: 2016-9-12 07:22

posted by wap, platform: iPhone
终于可以听冰与火了
作者: 井喷    时间: 2016-9-12 08:00

没听出有多大区别,可能是我心太宽
作者: 旨旨    时间: 2016-9-12 08:18

posted by wap, platform: SONY Xperia Z3
觉得参数控制的和神经元的差不多
作者: xsix123    时间: 2016-9-12 08:32

posted by wap, platform: Firefox
确实厉害!我就想知道什么时候能用上!
作者: 加州IT男    时间: 2016-9-12 10:56

神在可以调整下参数就完全变成另一个人的声音语调口音了
可以自动生成Audiobook了
作者: beterhans    时间: 2016-9-12 11:14

posted by wap, platform: iPhone
回家看看
作者: 大饼大大    时间: 2016-9-12 11:40

posted by wap, platform: 小米3
我记得科塔纳当时也是吹一波,还会唱歌,后来装上发现也就那样
作者: xxhunter    时间: 2016-9-12 12:01

posted by wap, platform: iPhone
可以调出贝吉塔的语调吗?
作者: jun4rui    时间: 2016-9-12 12:01

posted by wap, platform: Samsung
引用:
原帖由 @大饼大大  于 2016-9-11 15:40 发表
我记得科塔纳当时也是吹一波,还会唱歌,后来装上发现也就那样
现在要挑战初音未来了,不过效果和几年前bilibili上用户自制的差不多。这个强多了,首先也不是完全听不出合成的痕迹,但是很少了,有些语调语气下很难察觉。同一句话下,不同参数搭配出来的语调语气差异明显不同,这一点太牛逼
作者: HDE    时间: 2016-9-12 12:04

posted by wap, platform: iPhone
目前最强的还是初音家族吧,我觉得没有人为调教不太现实。
作者: 华莱士    时间: 2016-9-12 12:35

听了一下 楼主扯淡呢
效果被讯飞秒  风清扬的那个目前是最好的
作者: bsseven    时间: 2016-9-12 14:04

posted by wap, platform: Galaxy S7 Edge
啥时候读一本少妇白洁给我听听
作者: jun4rui    时间: 2016-9-12 14:14

posted by wap, platform: Chrome
引用:
原帖由 @HDE  于 2016-9-11 16:04 发表
目前最强的还是初音家族吧,我觉得没有人为调教不太现实。
初音差远了,初音本来就是必须调教的,不调教没法用啊。bilibili过年的时候有个初音引擎做的相声,效果比讯飞惨烈多了,你可以点这里观摩一下
作者: 变色龙    时间: 2016-9-12 15:27

回头看看,都这么牛逼了么




欢迎光临 TGFC Lifestyle (http://bbs.tgfcer.com/) Powered by Discuz! 6.0.0