打印

[数码手机] 作为一个曾经的人工智能研究者，说说我对Siri的看法。

sakuraltr

小黑屋

帖子: 1225
精华: 0
积分: 19279
激骚: 162 度
爱车
主机
相机
手机
注册时间: 2002-10-28

数码区 iPhone6 发售纪念☆☆☆

发短消息
加为好友
当前离线

1^# 大中小发表于 2011-10-12 13:57 只看该作者

很巧，我做过几年人工智能相关的工作，对这个多少了解一点，下面说说我对Siri的看法。声明，我还没有实际玩过Siri，下面的都是根据网上官方和非官方视频、评测来推测得来的，仅供参考。

认为Android早就有类似技术的，我觉得是不对的。Siri实际上是“语音识别”和“人工职能”两种技术的结合，Android那个只能叫语音识别，识别后转换成命令来执行相关的工作，这个iPhone也是一直都有的，只不过iPhone叫VoiceOver Control，长按HOME不放就能开启。Android的语音识别我没用过，iPhone的其实中文识别率很低，英文稍高。总的来说这两者都没有什么太实用的意义，因为技术局限在那里了。而且这种方式比较原始，就是要用户背命令。比如问时间，你问iPhone“现在的时间是什么？”，它会告诉你。但是如果你问“给我时间”，可能它就因为数据库里没有这个句型，而不给时间了。

Siri在“语音识别”方面有没有技术大进步还不好说，毕竟没有体验到实机，但是从官方和民间评测视频来看，使用者都是故意字正腔圆对着机器说话的，说明如果句型偏口语化，英文发音略读轻读多的话，实际识别效果也不会很好。所以我估计语音识别技术方面还没有太大的突破，主要突破还是在人工智能技术方面了。

下面说Siri的人工智能技术，Siri也绝不是有些人认为的真正模拟大脑那样划时代的超级智能技术，但从我看过的苹果官方Siri演示和国外网友实拍的Review来看，Siri从宣传语上说自己是“先进的人工智能技术”是没有吹太大牛的。因为Siri里面有了大量句型的增加，和通过“情景对话”的方式实现的模拟“上下文逻辑联系”的效果，虽说从本质上来说也是数据库储存量堆砌的后果，并不是模拟大脑这种级别的智能，但是从使用者的感受来说，是会感受到科技的比较大进步的。

我们没必要苛求现在的时代就能享受到科幻片里的会反抗，会组军队叛变的那种生物级别的人工智能，Siri这种智能已经足够了，说穿了这种人工智能就是“人工”＋“智能”。这个“人工”是建立在有一大堆像客服一样的编辑团队的辛勤工作上的，估计苹果每种大语言都会准备它个几百号人疯狂地分析用户实际运用情况来优化数据库和识别理解规则。

大量句型的增加这一点很容易理解，就是苹果为每一个动作的触发方式，通过研究自然语言而发明了很多很多个句型。还是拿问时间来说，也许句型就有
＊时间＊＋＊多少＊
＊现在＊＋＊几点＊
＊目前＊＋＊几点＊
类似这样十几二十个句型。
为什么不直接做成问话中只要有“几点”或者“时间”这个词语就触发“报时”呢？因为这样会引起误判，比如用户可能是说“告诉我XX文档中包含几点”一类。
我举的例子其实不是很好，我不做那一行也很久了，当时我们也是有一堆经过培训的编辑来负责写这些东西的，不是我的强项。
按照我的经验，一边是要至少有三个关键字／次的＋组合和一个（可选）的－（排除）组合，才能让识别率达到一定的准确度的。这是对中文而言，英文要傻一些，简单一些。中文字词是不空格的，首先还要有中文分词，非常麻烦。英文单词都是空格自然分开的，要判断的只有listen....to....这一类的常见句型。

下面说上下文联系，其实这个我们很多年前就做过类似的了，找一堆编辑来写一种叫“情景对话”的东西。
情景对话有点像一个倒立的树形结构，下面分出很多枝干，枝干越密越复杂，理论上给用户的“智能”错觉就会越好，实际情况倒不总是这样。
比如问饭馆，可能“肚子饿了”、“今天想出去吃”甚至“明天是结婚纪念日”，只要苹果愿意，都可以马上引到“外出就餐订位”这个情景对话里面来，可能第一句是问你“想吃什么菜（系）”，你回答后可能就接着问你“想在什么区吃”了，之后也许是给你几家餐馆列表，也许是直接帮你订一家。这几个分支都还可以做优化，比如通过location API知道你现在在哪里之后，也许推荐给你的餐馆列表，会把距离你车程范围1个小时的餐馆都列在里面。做得再高级一点，比如系统知道你前几年结婚纪念日都是固定在某家菜馆订几点，它就直接询问你是不是明天晚上8点还是在老地方XXX订个双人位置并预定一束鲜花了（当然会等你确认无误后再执行）。情景对话再中间的枝干也有可能触发跳入，这里就不举例了。情景对话的最大好处就是，用户被不知不觉地套进了一个Siri自己有信心有储备的“限定对话区域”，在这个区域内，实际上主动权是掌握在Siri手里的，用户反而是一直在回答，这样才能保证Siri能尽可能地收集到同一个命令下地信息，而不是被用户天马行空跳转话题绕得崩溃。

上下文联系其实是有一定技术难度的，这要通过丰富的编辑写的规则，来准确判断你的话题是普通聊天呢，还是触发了一个情景对话呢，还是希望跳出当前的情景对话呢，还是直接跳入另一个情景对话呢？这些我们当时在用中文试验的时候，确实很难，效果也不太好。但是经过这么多年的研究发展，再加上英文本身比较简单，相信Siri这次的英文Demo版本已经达到很高的完成度了，用户体验也会比较满意，也许有些用户会达到很满意的情况。比如你先问了“第五大道附近有什么好吃的意大利菜”，Siri告诉你之后，你接着问“墨西哥呢？”，Siri决不会认为你在问墨西哥在哪儿，或是墨西哥的天气，而是会把你的问题还原为“第五大道附近有什么好吃的墨西哥菜”。

还有一些办法是可以增加用户对这个“人工智能”的满意度的，就是模仿人类的幽默感。这个我们也老早就用过，编了一些插科打诨的东西在我们的数据库里面。Siri也确实这么做了，看了一些网上的评测，比如问它“What's your name?”它答“My name is Siri. But you knew that already.”问它“I love you!”它答“I hope you don't say that to those other mobile phones. [主人的名字]” 我们以前做得更厉害了，对同一个玩笑，我们准备了数十条插科打诨的答覆，一般用户都问不重样的，苹果可能还没时间精力搞这么多。这一招是很灵的，因为用户都是有情感的，他会因为一句小小的玩笑而瞬间脑部给这台设备赋予一个人格，也许每个用户脑子里这台4s的人格还不一样。这种小伎俩有时候远比我们想象的更能激发用户的“感觉”。

最后其实我还有一个疑问，就是目前的Siri版本里是否有“学习”（非语音识别的学）这个成分。我们以前的东西是有的，用户可以表面上让机器学习，实际上让机器记住自己的一些个性化偏好，这是人工智能一个很好的发展方向。因为我还没拿到机器没法测试，所以这里就不发表意见了。

我在Siri上看到更多的是苹果在体验上下的努力，我前面说这些，理论上每个有技术储备的公司都可以做，但是尽心尽力能把Siri做到视频里和iOS如此完美整合，和各种App交互如此流畅、美观和优雅，这个我是相当佩服的。

苹果也一直对残障人士很重视，不管是Mac OS还是iOS，里面对残障人士设计的辅助功能都是我见过的数码产品和操作系统里面最全最强大的，Siri这个技术也可以帮到很多残障人士（比如没手的，手指缺失或畸形的），以及很多不是残障的人（比如年级比较大打字或者看字有点困难的）。

综上所述，我想告诉大家的是，Siri达到的层次绝不是有些人认为的“同类产品早就有了”，而确实是脱颖而出的。它也不会达到有些人想当然认为的“神科技”级别的效果。我认为它是达到了苹果认为的相对来说比较成熟，可以推出市场，并持续改进发展的程度。中文版应该也会在几个月内推出，原则上效果不会有英文版这么好，但是还是很值得期待。你可以说它很多地方都是生硬的，人工的，“伪智能”，“伪情感”，但是消费者才不会管这么多，他喜欢最终达到的效果，他就会吃这一套。有些Geek认为苹果的东西是欺骗，或者“弱智”，或者“限制”，但是他们不能反驳苹果给普通非Geek用户带来了多少方便和省心，例如有多少中老年人因为iPad和iPhone才能没有太多障碍地用上这个“智能”时代的产品。苹果是科技创新者，同时也是一个优秀成功的商人。它每一项推出市场的技术，都是综合权衡了这两方面的，所以它在很多方面至今取得了巨大的成功。

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝
PS：看到有些人说什么“配音”，其实从视频上来看感觉Siri目前还是合成语音，不是什么先进的东西，远比不上真人声采样。但是也不能说Siri以后就不会改进了。

OS X Lion的Beta版有一个版本里，语音－－文本至语音功能中，英文和中文就分别有一个可选包可以下载，中文的大概六百多MB吧，听起来应该就是真人声采样的，效果和默认的合成语音比起来已经好到飞起了，可惜后来的Beta版里就被取消了，现在的GM版里都没有。

苹果应该是在做类似初音这种效果更好更自然的技术储备的，合适的时候自然会代替现在Siri这种合成语音。

[ 本帖最后由 sakuraltr 于 2011-10-12 19:15 编辑 ]

本帖最近评分记录

321stop 激骚 +1 最骚 Rated by wap 2011-10-13 07:06
rb 发贴积分 +50 感谢分享 2011-10-13 00:02
我爱红霞激骚 +3 版务处理 2011-10-12 22:09
拉拉拉激骚 +1 最骚 Rated by wap 2011-10-12 20:02
chenil 激骚 +1 最骚 Rated by wap for mark 2011-10-12 19:54

TOP

readone

魔头

帖子: 1930
精华: 0
积分: 26672
激骚: 250 度
爱车
主机
相机
手机
注册时间: 2006-9-18

TGFC 2014新年勋章☆☆☆☆ TGFC 2015新年勋章☆☆☆☆ TGFC 2016新年勋章☆☆☆☆ TGFC 2017新年勋章☆☆☆☆

发短消息
加为好友
当前离线

2^# 大中小发表于 2011-10-12 14:01 只看该作者

唉，如果是乔不死的配音就完美了

TOP

lada2104

小黑屋

帖子: 311
精华: 0
积分: 5567
激骚: 58 度
爱车
主机
相机
手机
注册时间: 2011-9-16

发短消息
加为好友
当前离线

3^# 大中小发表于 2011-10-12 14:05 只看该作者

posted by wap, platform: SonyEricsson

对着电话下命令太傻X了!

TOP

Crusher

小黑屋

帖子: 14004
精华: 0
积分: 32463
激骚: 2555 度
爱车: 酱油车
主机: 神机三
相机: 玩不来
手机
注册时间: 2008-7-28

TGFC 2015新年勋章☆☆☆☆ TGFC 2016新年勋章☆☆☆☆ TGFC 2017新年勋章☆☆☆☆ TGFC 2018新年勋章☆☆☆☆

发短消息
加为好友
当前离线

4^# 大中小发表于 2011-10-12 14:07 只看该作者

posted by wap, platform: iPhone

中文版能不能请林志玲来配音？能得话我就买:D

TOP

雾桑

元始天尊

告别泪流满面

帖子: 46819
精华: 0
积分: 32020
激骚: 7030 度
爱车: 丝般顺滑4AT
主机: 方方正正样品机
相机: 2017女友一号
手机: 1秒变身高富帅/穷屌丝
注册时间: 2008-8-1

PS区大收藏家奖☆☆☆ TGFC 2014新年勋章☆☆☆☆ TGFC 2015新年勋章☆☆☆☆ TGFC 2016新年勋章☆☆☆☆ TGFC 2017新年勋章☆☆☆☆ TGFC 2018新年勋章☆☆☆☆ TGFC 2019新年勋章☆☆☆☆ TGFC 2020年度勋章☆☆☆☆

发短消息
加为好友
当前离线

5^# 大中小发表于 2011-10-12 14:10 只看该作者

从楼主举例来看，中文跟英文和语法上面就差别太大了，再加上中文发音的不标准性....得是两个相当独立开发的项目了吧，虽然情景模式部分可能会共享一下..

中文版能比英文版晚几个月就上市么？我很怀疑。

TOP

banditcat

小黑屋

帖子: 14542
精华: 0
积分: 30715
激骚: 1944 度
爱车: 少一轮
主机: 神舟上网本
相机: Treo650
手机
来自: 嗖嗖嗖嗖嗖嗖嗖嗖嗖嗖
注册时间: 2010-8-3

TGFC 2014新年勋章☆☆☆☆ TGFC 2015新年勋章☆☆☆☆

发短消息
加为好友
当前离线

6^# 大中小发表于 2011-10-12 14:12 只看该作者

posted by wap, platform: Opera

就是语义搜索

TOP

nai

小黑屋

帖子: 11410
精华: 0
积分: 26021
激骚: 387 度
爱车
主机
相机
手机
注册时间: 2003-1-18

发短消息
加为好友
当前离线

7^# 大中小发表于 2011-10-12 14:13 只看该作者

我觉得这玩意再怎么着，也比全文翻译简单吧。由现在的全文翻译技术那个鸟样，可想而知这玩意的鸟鸟样！

TOP

sakuraltr

小黑屋

帖子: 1225
精华: 0
积分: 19279
激骚: 162 度
爱车
主机
相机
手机
注册时间: 2002-10-28

数码区 iPhone6 发售纪念☆☆☆

发短消息
加为好友
当前离线

8^# 大中小发表于 2011-10-12 14:19 只看该作者

引用:

原帖由 banditcat 于 2011-10-12 14:12 发表
posted by wap, platform: Opera

就是语义搜索

其实是语义搜索地延伸，语义搜索还不需要考虑上下文联系，情景对话什么的。

TOP

泄娜

混世魔头

帖子: 4125
精华: 0
积分: 12871
激骚: 59 度
爱车: 草泥马
主机: 草泥马
相机: 草泥马
手机: 草泥马
来自: 麻辣隔壁
注册时间: 2011-1-21

TGFC 2015新年勋章☆☆☆☆ TGFC 2020年度勋章☆☆☆☆

发短消息
加为好友
当前离线

9^# 大中小发表于 2011-10-12 14:19 只看该作者

中文跟英文确实差距较大。。

TOP

aweiwei

大都督

小黑屋归来

帖子: 82758
精华: 2
积分: 108062
激骚: 7415 度
爱车: XTS
主机: WII
相机: E-M10
手机: iPhone Xs Max
来自: 北京
注册时间: 2002-5-24

TGFC 2014新年勋章☆☆☆☆ TGFC 2015新年勋章☆☆☆☆ TGFC 2020年度勋章☆☆☆☆

发短消息
加为好友
当前离线

10^# 大中小发表于 2011-10-12 14:19 只看该作者

posted by wap, platform: SAMSUNG (Nexus S)

肯定是电子合成的语音吧。

TOP

sakuraltr

小黑屋

帖子: 1225
精华: 0
积分: 19279
激骚: 162 度
爱车
主机
相机
手机
注册时间: 2002-10-28

数码区 iPhone6 发售纪念☆☆☆

发短消息
加为好友
当前离线

11^# 大中小发表于 2011-10-12 14:26 只看该作者

引用:

原帖由 nai 于 2011-10-12 14:13 发表
我觉得这玩意再怎么着，也比全文翻译简单吧。由现在的全文翻译技术那个鸟样，可想而知这玩意的鸟鸟样！

全文翻译在某些方面当然更难，要达到高质量的全文翻译，需要教会计算机如何去识别一篇文章说的主题，中心思想，作者的观点是偏向哪一面等，这样才能渲染出符合作者情绪和观点偏好的翻译。

但是对普通消费者来说，很多已经知道全文翻译不怎么样了，多少也试用过了，了解了现在的水平后也不会因此激动了，但是Siri这种语音输入转化为识别后的反馈的东西，作为普通消费者来说会觉得很神奇，很新鲜。

你要做什么东西都不能光想做技术最先进的，Geek才懂才去用的东西，而是挑选一些技术来组合出消费者会为之兴奋的点。苹果很擅长这一点，它一方面是科技创新者，一方面是商人，它的决定都是综合考虑了两者的，这是它的聪明之处。

TOP

yuhui

魔神至尊

帖子: 28629
精华: 0
积分: 69922
激骚: 1823 度
爱车: 酱油
主机: 酱油
相机: 酱油
手机
来自: 天津
注册时间: 2002-9-27

PS区 2013新年白金奖☆☆☆☆ PS区 2017新年白金奖☆☆☆☆ PS区 2018新年白金奖☆☆☆☆ PS区 2019新年白金奖☆☆☆☆ PS区 PS4主机首发纪念奖★ PS区大会员奖☆☆ PS区大收藏家奖☆☆☆ PS区索饭认证☆☆ PS区携带达人VITA命☆ TGFC 2014新年勋章☆☆☆☆ TGFC 2015新年勋章☆☆☆☆ TGFC 2016新年勋章☆☆☆☆ TGFC 2017新年勋章☆☆☆☆ TGFC 2018新年勋章☆☆☆☆ TGFC 2019新年勋章☆☆☆☆ TGFC 2020年度勋章☆☆☆☆ 任区任饭认证☆☆ 主机区 PS4 pro首发纪念★