Board logo

标题: [数码手机] 作为一个曾经的人工智能研究者,说说我对Siri的看法。 [打印本页]

作者: sakuraltr    时间: 2011-10-12 13:57     标题: 作为一个曾经的人工智能研究者,说说我对Siri的看法。

很巧,我做过几年人工智能相关的工作,对这个多少了解一点,下面说说我对Siri的看法。声明,我还没有实际玩过Siri,下面的都是根据网上官方和非官方视频、评测来推测得来的,仅供参考。

认为Android早就有类似技术的,我觉得是不对的。Siri实际上是“语音识别”和“人工职能”两种技术的结合,Android那个只能叫语音识别,识别后转换成命令来执行相关的工作,这个iPhone也是一直都有的,只不过iPhone叫VoiceOver Control,长按HOME不放就能开启。Android的语音识别我没用过,iPhone的其实中文识别率很低,英文稍高。总的来说这两者都没有什么太实用的意义,因为技术局限在那里了。而且这种方式比较原始,就是要用户背命令。比如问时间,你问iPhone“现在的时间是什么?”,它会告诉你。但是如果你问“给我时间”,可能它就因为数据库里没有这个句型,而不给时间了。

Siri在“语音识别”方面有没有技术大进步还不好说,毕竟没有体验到实机,但是从官方和民间评测视频来看,使用者都是故意字正腔圆对着机器说话的,说明如果句型偏口语化,英文发音略读轻读多的话,实际识别效果也不会很好。所以我估计语音识别技术方面还没有太大的突破,主要突破还是在人工智能技术方面了。

下面说Siri的人工智能技术,Siri也绝不是有些人认为的真正模拟大脑那样划时代的超级智能技术,但从我看过的苹果官方Siri演示和国外网友实拍的Review来看,Siri从宣传语上说自己是“先进的人工智能技术”是没有吹太大牛的。因为Siri里面有了大量句型的增加,和通过“情景对话”的方式实现的模拟“上下文逻辑联系”的效果,虽说从本质上来说也是数据库储存量堆砌的后果,并不是模拟大脑这种级别的智能,但是从使用者的感受来说,是会感受到科技的比较大进步的。

我们没必要苛求现在的时代就能享受到科幻片里的会反抗,会组军队叛变的那种生物级别的人工智能,Siri这种智能已经足够了,说穿了这种人工智能就是“人工”+“智能”。这个“人工”是建立在有一大堆像客服一样的编辑团队的辛勤工作上的,估计苹果每种大语言都会准备它个几百号人疯狂地分析用户实际运用情况来优化数据库和识别理解规则。

大量句型的增加这一点很容易理解,就是苹果为每一个动作的触发方式,通过研究自然语言而发明了很多很多个句型。还是拿问时间来说,也许句型就有
*时间*+*多少*
*现在*+*几点*
*目前*+*几点*
类似这样十几二十个句型。
为什么不直接做成问话中只要有“几点”或者“时间”这个词语就触发“报时”呢?因为这样会引起误判,比如用户可能是说“告诉我XX文档中包含几点”一类。
我举的例子其实不是很好,我不做那一行也很久了,当时我们也是有一堆经过培训的编辑来负责写这些东西的,不是我的强项。
按照我的经验,一边是要至少有三个关键字/次的+组合和一个(可选)的-(排除)组合,才能让识别率达到一定的准确度的。这是对中文而言,英文要傻一些,简单一些。中文字词是不空格的,首先还要有中文分词,非常麻烦。英文单词都是空格自然分开的,要判断的只有listen....to....这一类的常见句型。

下面说上下文联系,其实这个我们很多年前就做过类似的了,找一堆编辑来写一种叫“情景对话”的东西。
情景对话有点像一个倒立的树形结构,下面分出很多枝干,枝干越密越复杂,理论上给用户的“智能”错觉就会越好,实际情况倒不总是这样。
比如问饭馆,可能“肚子饿了”、“今天想出去吃”甚至“明天是结婚纪念日”,只要苹果愿意,都可以马上引到“外出就餐订位”这个情景对话里面来,可能第一句是问你“想吃什么菜(系)”,你回答后可能就接着问你“想在什么区吃”了,之后也许是给你几家餐馆列表,也许是直接帮你订一家。这几个分支都还可以做优化,比如通过location API知道你现在在哪里之后,也许推荐给你的餐馆列表,会把距离你车程范围1个小时的餐馆都列在里面。做得再高级一点,比如系统知道你前几年结婚纪念日都是固定在某家菜馆订几点,它就直接询问你是不是明天晚上8点还是在老地方XXX订个双人位置并预定一束鲜花了(当然会等你确认无误后再执行)。情景对话再中间的枝干也有可能触发跳入,这里就不举例了。情景对话的最大好处就是,用户被不知不觉地套进了一个Siri自己有信心有储备的“限定对话区域”,在这个区域内,实际上主动权是掌握在Siri手里的,用户反而是一直在回答,这样才能保证Siri能尽可能地收集到同一个命令下地信息,而不是被用户天马行空跳转话题绕得崩溃。

上下文联系其实是有一定技术难度的,这要通过丰富的编辑写的规则,来准确判断你的话题是普通聊天呢,还是触发了一个情景对话呢,还是希望跳出当前的情景对话呢,还是直接跳入另一个情景对话呢?这些我们当时在用中文试验的时候,确实很难,效果也不太好。但是经过这么多年的研究发展,再加上英文本身比较简单,相信Siri这次的英文Demo版本已经达到很高的完成度了,用户体验也会比较满意,也许有些用户会达到很满意的情况。比如你先问了“第五大道附近有什么好吃的意大利菜”,Siri告诉你之后,你接着问“墨西哥呢?”,Siri决不会认为你在问墨西哥在哪儿,或是墨西哥的天气,而是会把你的问题还原为“第五大道附近有什么好吃的墨西哥菜”。

还有一些办法是可以增加用户对这个“人工智能”的满意度的,就是模仿人类的幽默感。这个我们也老早就用过,编了一些插科打诨的东西在我们的数据库里面。Siri也确实这么做了,看了一些网上的评测,比如问它“What's your name?”它答“My name is Siri. But you knew that already.”问它“I love you!”它答“I hope you don't say that to those other mobile phones. [主人的名字]” 我们以前做得更厉害了,对同一个玩笑,我们准备了数十条插科打诨的答覆,一般用户都问不重样的,苹果可能还没时间精力搞这么多。这一招是很灵的,因为用户都是有情感的,他会因为一句小小的玩笑而瞬间脑部给这台设备赋予一个人格,也许每个用户脑子里这台4s的人格还不一样。这种小伎俩有时候远比我们想象的更能激发用户的“感觉”。

最后其实我还有一个疑问,就是目前的Siri版本里是否有“学习”(非语音识别的学)这个成分。我们以前的东西是有的,用户可以表面上让机器学习,实际上让机器记住自己的一些个性化偏好,这是人工智能一个很好的发展方向。因为我还没拿到机器没法测试,所以这里就不发表意见了。

我在Siri上看到更多的是苹果在体验上下的努力,我前面说这些,理论上每个有技术储备的公司都可以做,但是尽心尽力能把Siri做到视频里和iOS如此完美整合,和各种App交互如此流畅、美观和优雅,这个我是相当佩服的。

苹果也一直对残障人士很重视,不管是Mac OS还是iOS,里面对残障人士设计的辅助功能都是我见过的数码产品和操作系统里面最全最强大的,Siri这个技术也可以帮到很多残障人士(比如没手的,手指缺失或畸形的),以及很多不是残障的人(比如年级比较大打字或者看字有点困难的)。

综上所述,我想告诉大家的是,Siri达到的层次绝不是有些人认为的“同类产品早就有了”,而确实是脱颖而出的。它也不会达到有些人想当然认为的“神科技”级别的效果。我认为它是达到了苹果认为的相对来说比较成熟,可以推出市场,并持续改进发展的程度。中文版应该也会在几个月内推出,原则上效果不会有英文版这么好,但是还是很值得期待。你可以说它很多地方都是生硬的,人工的,“伪智能”,“伪情感”,但是消费者才不会管这么多,他喜欢最终达到的效果,他就会吃这一套。有些Geek认为苹果的东西是欺骗,或者“弱智”,或者“限制”,但是他们不能反驳苹果给普通非Geek用户带来了多少方便和省心,例如有多少中老年人因为iPad和iPhone才能没有太多障碍地用上这个“智能”时代的产品。苹果是科技创新者,同时也是一个优秀成功的商人。它每一项推出市场的技术,都是综合权衡了这两方面的,所以它在很多方面至今取得了巨大的成功。

================
PS:看到有些人说什么“配音”,其实从视频上来看感觉Siri目前还是合成语音,不是什么先进的东西,远比不上真人声采样。但是也不能说Siri以后就不会改进了。

OS X Lion的Beta版有一个版本里,语音--文本至语音功能中,英文和中文就分别有一个可选包可以下载,中文的大概六百多MB吧,听起来应该就是真人声采样的,效果和默认的合成语音比起来已经好到飞起了,可惜后来的Beta版里就被取消了,现在的GM版里都没有。

苹果应该是在做类似初音这种效果更好更自然的技术储备的,合适的时候自然会代替现在Siri这种合成语音。

[ 本帖最后由 sakuraltr 于 2011-10-12 19:15 编辑 ]
作者: readone    时间: 2011-10-12 14:01

唉, 如果是乔不死的配音 就完美了
作者: lada2104    时间: 2011-10-12 14:05

posted by wap, platform: SonyEricsson

对着电话下命令太傻X了!
作者: Crusher    时间: 2011-10-12 14:07

posted by wap, platform: iPhone

中文版能不能请林志玲来配音? 能得话我就买:D
作者: 雾桑    时间: 2011-10-12 14:10

从楼主举例来看,中文跟英文和语法上面就差别太大了,再加上中文发音的不标准性....得是两个相当独立开发的项目了吧,虽然情景模式部分可能会共享一下..

中文版能比英文版晚几个月就上市么?我很怀疑。
作者: banditcat    时间: 2011-10-12 14:12

posted by wap, platform: Opera

就是语义搜索
作者: nai    时间: 2011-10-12 14:13

我觉得这玩意再怎么着,也比全文翻译简单吧。由现在的全文翻译技术那个鸟样,可想而知这玩意的鸟鸟样!
作者: sakuraltr    时间: 2011-10-12 14:19

引用:
原帖由 banditcat 于 2011-10-12 14:12 发表
posted by wap, platform: Opera

就是语义搜索
其实是语义搜索地延伸,语义搜索还不需要考虑上下文联系,情景对话什么的。
作者: 泄娜    时间: 2011-10-12 14:19

中文跟英文确实差距较大。。
作者: aweiwei    时间: 2011-10-12 14:19

posted by wap, platform: SAMSUNG (Nexus S)

肯定是电子合成的语音吧。
作者: sakuraltr    时间: 2011-10-12 14:26

引用:
原帖由 nai 于 2011-10-12 14:13 发表
我觉得这玩意再怎么着,也比全文翻译简单吧。由现在的全文翻译技术那个鸟样,可想而知这玩意的鸟鸟样!
全文翻译在某些方面当然更难,要达到高质量的全文翻译,需要教会计算机如何去识别一篇文章说的主题,中心思想,作者的观点是偏向哪一面等,这样才能渲染出符合作者情绪和观点偏好的翻译。

但是对普通消费者来说,很多已经知道全文翻译不怎么样了,多少也试用过了,了解了现在的水平后也不会因此激动了,但是Siri这种语音输入转化为识别后的反馈的东西,作为普通消费者来说会觉得很神奇,很新鲜。

你要做什么东西都不能光想做技术最先进的,Geek才懂才去用的东西,而是挑选一些技术来组合出消费者会为之兴奋的点。苹果很擅长这一点,它一方面是科技创新者,一方面是商人,它的决定都是综合考虑了两者的,这是它的聪明之处。
作者: yuhui    时间: 2011-10-12 14:28

posted by wap, platform: iPhone

感觉这神科技还得再十年才能实现
作者: migiry    时间: 2011-10-12 14:31

中文太难了,我不看好siri支持中文
作者: OTZ.    时间: 2011-10-12 15:07

posted by wap, platform: iOS

我说我要打炮的话,它会知道我到底是要做爱还是打火炮吗
作者: FoxfoO    时间: 2011-10-12 15:07

其实对老年人来说很方便的,尤其是不懂得操作手机的~~~比如说:
给儿子发条短信问他晚上回不回来吃饭~~~
作者: EpilogueSKM    时间: 2011-10-12 15:12

posted by wap, platform: Nokia (6120)

语音短信功能都啥年代的技术了
作者: LTFYH    时间: 2011-10-12 15:13

----给儿子发条短信问他晚上回不回来吃饭~~~
就拿这句话来说吧,如果发出的短信是:你晚上回不回来吃饭,这种情况我认为就算是神科技,而如果发出的短信是:问他晚上回不回来吃饭,那这种科技就没啥好说的。
作者: FoxfoO    时间: 2011-10-12 15:14

引用:
原帖由 LTFYH 于 2011-10-12 15:13 发表
----给儿子发条短信问他晚上回不回来吃饭~~~
就拿这句话来说吧,如果发出的短信是:你晚上回不回来吃饭,这种情况我认为就算是神科技,而如果发出的短信是:问他晚上回不回来吃饭,那这种科技就没啥好说的。
同意。
作者: lawson    时间: 2011-10-12 15:18

我身边有个朋友,他说他儿子让他准备买IP4S,理由是可以用英语交流智能对话…从而提升日常英语对话水平…朋友问我这是否靠谱,我说你觉得靠谱就靠谱。 ……这以后卖苹果爱疯的商家必须赶紧大力在中国家长面前宣扬这种神奇功能!!保证很多家长愿意买单的!
作者: EpilogueSKM    时间: 2011-10-12 15:18

posted by wap, platform: Nokia (6120)

喷了,你只需要按下按钮说:儿子你今晚回来不回来吃饭,就行了,哪来那么多屁事。更何况现在微信用起来不是更方便?
作者: sakuraltr    时间: 2011-10-12 15:21

引用:
原帖由 lawson 于 2011-10-12 15:18 发表
我身边有个朋友,他说他儿子让他准备买IP4S,理由是可以用英语交流智能对话…从而提升日常英语对话水平…朋友问我这是否靠谱,我说你觉得靠谱就靠谱。 ……这以后卖苹果爱疯的商家必须赶紧大力在中国家长面前宣 ...
这个明显是误导了,Siri主要干的事情还是执行,就算说话也是合成电子音,对学语言没啥太大帮助。让你朋友买套Resotta Stone吧。
作者: lvcha    时间: 2011-10-12 15:26

引用:
原帖由 FoxfoO 于 2011-10-12 15:07 发表
其实对老年人来说很方便的,尤其是不懂得操作手机的~~~比如说:
给儿子发条短信问他晚上回不回来吃饭~~~
着实不错,等支持中文给我家长买一个
作者: nai    时间: 2011-10-12 15:28

假如siri智能执行不能或理解错误,果青们肯定还是会觉得是自己的发音不标准导致。
所以,学语言肯定还是有必要的
引用:
原帖由 sakuraltr 于 2011-10-12 15:21 发表


这个明显是误导了,Siri主要干的事情还是执行,就算说话也是合成电子音,对学语言没啥太大帮助。让你朋友买套Resotta Stone吧。

作者: sakuraltr    时间: 2011-10-12 15:31

引用:
原帖由 nai 于 2011-10-12 15:28 发表
假如siri智能执行不能或理解错误,果青们肯定还是会觉得是自己的发音不标准导致。
所以,学语言肯定还是有必要的


在目前的技术下,自己发音不标准导致理解错误和不能理解是很正常的啊,纠正自己发音难道是坏事吗?
你遇到了老外用中文跟你问路,你也会自然地改用字正腔圆的普通话来告诉他啊,老外中文程度不高,我们配合他一下,我不觉得这个有啥好讽刺的。
作者: nai    时间: 2011-10-12 15:38

我觉得吧,这种功能本来是方便人很自然的使用的,随便的,很自然的用你自己的日常语言说出你的想法,然后服务帮你执行这才是这个的意义所在。
假如非要将日常我们交谈使用的这么多的方言,在给苹果手机这块下命令时,突然改用标准的
普通话,这不很别扭不?而且我估计大部分人当众是干不出这事的。
引用:
原帖由 sakuraltr 于 2011-10-12 15:31 发表


在目前的技术下,自己发音不标准导致理解错误和不能理解是很正常的啊,纠正自己发音难道是坏事吗?
你遇到了老外用中文跟你问路,你也会自然地改用字正腔圆的普通话来告诉他啊,老外中文程度不高,我们配合他一 ...

作者: nai    时间: 2011-10-12 15:40

手写输入就是一个典型的例子。如果非要写得端端正正的才行,那有多少人还会用手写输入?
作者: FoxfoO    时间: 2011-10-12 15:42

引用:
原帖由 EpilogueSKM 于 2011-10-12 15:18 发表
posted by wap, platform: Nokia (6120)

喷了,你只需要按下按钮说:儿子你今晚回来不回来吃饭,就行了,哪来那么多屁事。更何况现在微信用起来不是更方便?
这个功能就让给Android来实现吧~~~
作者: FoxfoO    时间: 2011-10-12 15:44

引用:
原帖由 nai 于 2011-10-12 15:40 发表
手写输入就是一个典型的例子。如果非要写得端端正正的才行,那有多少人还会用手写输入?
留给需要的人去用。这个和电脑不能识别方言一回事。
作者: gogoler    时间: 2011-10-12 15:50

posted by wap, platform: SAMSUNG (Nexus S)

@gogoler mark
作者: ntxdz    时间: 2011-10-12 15:52

posted by wap, platform: Palm

母上说方言的.......
作者: sakuraltr    时间: 2011-10-12 15:53

引用:
原帖由 nai 于 2011-10-12 15:38 发表
我觉得吧,这种功能本来是方便人很自然的使用的,随便的,很自然的用你自己的日常语言说出你的想法,然后服务帮你执行这才是这个的意义所在。
假如非要将日常我们交谈使用的这么多的方言,在给苹果手机这块下命令时 ...
你说的这是一个愿景,苹果微软谷歌谁不想实现啊。
谁不想人类只要吃颗药丸就能所有语言都流畅对话写作啊?
目前程度就这样了,爱用就忍,不用也没人逼你。
作者: survivorcn    时间: 2011-10-12 18:47

posted by wap, platform: Nokia (E66)

目前来说没有真正的人工智能?都只是依靠巨大的数据库进行对此、筛选获得答案吧。
作者: sakuraltr    时间: 2011-10-12 18:49

引用:
原帖由 survivorcn 于 2011-10-12 18:47 发表
posted by wap, platform: Nokia (E66)

目前来说没有真正的人工智能?都只是依靠巨大的数据库进行对此、筛选获得答案吧。
谁也不能打保票没有,也许某些军方在保密研究那种程度的吧
作者: 龙舌兰日出    时间: 2011-10-12 18:52

神科技又如何,敌得过换电池为本,刷机为魂的猴科技吗?猴群根本不屑。
作者: 果黑    时间: 2011-10-12 19:14

posted by wap, platform: iPhone

楼主说的这么明白这么客观如果还有猴崽子表示不理解还来嘴硬就是大沙壁了啊。

这个道理发布Siri的时候大多数人就是这么理解的,但是楼主说得比较透彻,也因为做过相关工作所以比较权威。猴崽子纷纷表示IDC?
作者: lijgame    时间: 2011-10-12 19:31

posted by wap, platform: iOS

看起来很美而已,实际用起来肯定不如demo的那么美好
还有我觉得楼主你说的这个方案需要海量的数据支持吧以及强劲的运算能力,现阶段的手机很难处理,除非是云计算,不知道那样的话lag如何
作者: leedsun    时间: 2011-10-12 19:49

云的话的确跟网络的关系更大
不过这个很好测试
到信号不好的地方试下就知道了
作者: aBrnoSUt    时间: 2011-10-12 19:54

对苹果的产品要求最苛刻的就是猴粪们了,比老乔还挑剔。

在连Beta版都还没有实机把玩过的情况下,就已经用无数的假设来证明Siri完全不靠谱。

估计今后几年猴粪永远不缺喷点了,因为无论如何蛋疼的努力,苹果也不可能让Siri涵盖所有方言。猴粪的逻辑无非就是,只要尚有复杂句式听不懂或者有方言无法识别,Siri就毫无突破和实用价值,苹果你已经败了。

就是不知道那些Nokia和案桌能支持多少方言~~~
作者: 小文    时间: 2011-10-12 19:54

肯定是云处理而且肯定有延迟,大量的信息查询,不用云端怎么处理,而延迟就从现在网上看到的Siri测试视频有时候也能看到delay现象,但绝大多数情况还是比较流畅的。
作者: chenil    时间: 2011-10-12 19:54

posted by wap, platform: Palm

@chenil mark
作者: LTFYH    时间: 2011-10-12 19:54

posted by wap, platform: iOS

这个肯定是云计算,不是说要wifi或3g 么
作者: migiry    时间: 2011-10-12 19:57

posted by wap, platform: iPad
引用:
原帖由 @LTFYH  于 2011-10-12 19:54 发表
posted by wap, platform: iOS

这个肯定是云计算,不是说要wifi或3g 么
联通的3g越来越像一坨屎
作者: LTFYH    时间: 2011-10-12 20:10

posted by wap, platform: iOS

我感觉lz在所谓的ai研究方面很小白
作者: *空缺中*    时间: 2011-10-12 20:30

posted by wap, platform: Nokia (5530)

我只想说他妈的运行内存多大,电池是随身带个摩托车的铅酸电池么
作者: chronicle1st    时间: 2011-10-12 20:30

posted by wap, platform: SAMSUNG (T959)

这东西如果真是语义搜索,要么不出中文,要么效果不好。中文的结构性和规范性比英语差太多。一个句子能理解成n种意思。语料库的庞大和计算的复杂性计算机肯定吃不消。微软的亚洲语言研究所搞了这么久,你们看看出了什么实质性成果。

本帖最后由 chronicle1st 于 2011-10-12 20:33 通过手机版编辑
作者: lijgame    时间: 2011-10-12 20:33

云端处理的话,当初一大堆帖子说什么只有A5双核1g内存才能实现,ip4处理能力不够云云的是咋回事?
作者: 熊猫    时间: 2011-10-12 21:07

还是觉得没啥用处,这玩意
作者: handsomeken    时间: 2011-10-12 22:05

posted by wap, platform: Nokia

楼主想的不过也是穷举,问题在于自然语言过于复杂,这条路根本行不通。为什么到现在也只不过有trados这样的翻译辅助程序而不是机器翻译工具,就是因为这个。那个还是文本,不存在语音辨识的困难。至于和其他程序的结合……这个跟语音识别相比,算啥?
作者: survivorcn    时间: 2011-10-12 22:13

posted by wap, platform: Nokia (E66)
引用:
原帖由 @LTFYH  于 2011-10-12 20:10 发表
posted by wap, platform: iOS

我感觉lz在所谓的ai研究方面很小白
求科普
作者: 拉拉拉    时间: 2011-10-12 22:14

posted by wap, platform: Nokia (E72)
引用:
原帖由 @sakuraltr  于 2011-10-12 15:31 发表
在目前的技术下,自己发音不标准导致理解错误和不能理解是很正常的啊,纠正自己发音难道是坏事吗?
你遇到了老外用中文跟你问路,你也会自然地改用字正腔圆的普通话来告诉他啊,老外中文程度不高,我们配合他一下, ...
有句刚句,这种情况,只能是老外来迁就你:i beg your pardon,sir?
作者: 爱泼猴    时间: 2011-10-12 22:25

以前龙舌兰大大也号称业内,记过俺就不说啥了,爱泼猴的业内基本到最后都要悲剧




欢迎光临 TGFC Lifestyle (http://bbs.tgfcer.com/) Powered by Discuz! 6.0.0