» 您尚未登录:请 登录 | 注册 | 标签 | 帮助 | 小黑屋 |


 22 12
发新话题
打印

[业评] 从一个computer vision从业者角度看微软的“火星科技”

引用:
一个摄像头(没看清,不确定是不是有第二个,有就没有问题)难以扑捉深度信息(depth information)值得商榷。
是两个



TOP

引用:
Project Natal

最后来说说这次发布会重点中的重点,高潮中的高潮——Project Natal。从演示的内容来说,Project Natal是三种技术的融合:语音识别,动作捕捉和人工智能。了解IT业界的相信对这三个词汇都不陌生,这些都是计算机领域的边缘学科。从很多年前就被列为IT产业发展的方向,进行重点的研究。谁能在任何一个领域有所突破,不但能够对科技进步带来突出的贡献,也将会拥有未来的财富。可惜的是,在这些概念产生的一二十年内,这些技术发展的速度可以用龟速来形容。人工智能就不说了,自从图灵之后,就没有任何实质性的突破。到如今,依然是海量的if…then… 所堆砌出来的代码。语音识别,10年前就看过微软通过海量语音输入学习,从而了解输入者发音习惯的机制,到如今依然还是这个机制。要么或者是Fonix那种只能对极有限词汇进行模糊识别的引擎。从未有任何一款技术真正实现了对人语言表达的识别。动作捕捉同样,时至今日,游戏和电影中所使用的Animation还是要通过专业Motion Capture设备,数十个摄像头,在专业的场地,被Capture的还需要穿着带有数十个能够代表Key Point信息的服装,方才能完成。而且这样的出的数据还要经过专业的Animator做海量的手动调整才能使用在游戏和电影中。或许微软收购了在某个领域内有突出研究的公司,但是如果说就此便能有演示中的突破,并且可以在XO这种机能和上百美元(左右)的外设配合下体验到,我觉得常识会阻止我去相信这种东西的存在。

再看今天的实际演示,所有具备“未来”科技感的演示都来自播放的视频。而现场的演示全都局限于一个人的极其有限的互动。现场的“踢球”和“作画”基本上都是Eyetoy级别的演示,甚至不如之前的Eyepet和几个 Eyetoy的Concept Video。外设本身也无非是增加了摄像头的数量,从而提供了诸如对于物体空间感的判断而已。而且不出意外的是,这次发布会上并未公布(不确定,因为Stream的时候中断过几次,不过之后我也没找到相关的信息)外设的发售时间。从常理上判断,意味着今年内应该不会上市,自然的也不会有相关的游戏出现。换言之,至少年内这事儿不会穿帮。

当然也会有人说,视频中或多或少有夸张的成分,可以说是一种对“目标能达到效果的预期”。这是商业中很正常的事情,不必太当真。然则我就觉得更加可笑了,E3 06中KZ2使用Pre-render Video作为游戏Concept阶段的演示,也是业界惯用的做法,为何某些人时至今日都耿耿于怀,却对微软“科幻”般的演示如此容易释然呢?
另外,我很想请LZ站在一个专业人士的角度,对另一位资深专业人士的上述发言做些同行评议




TOP

引用:
原帖由 laarcenciel 于 2009-6-2 13:49 发表 我不是专家,也不一定正确,仅仅想大家讨论一下,不对之处还请指出。

我大概浏览了一下,没有细看。motion capture那段没有错,很多电影或游戏都是这样的,原因是计算机模拟人体自然运动很不容易(几乎不可能真实还原),动作扑捉更加经济和有效。

而微软演示这些computer vision方法的运用领域却不在于此。他的目的只是“扑捉”人体的某个运动,然后通过相应的graphics方面的东西呈现出来:抑或是跟随人体做出相应动作(插轮胎),抑或是对人体动作做出反馈(球弹开),并没有很严格的要还原人体运动的目的。

另一个是我相信微软demo可行的地方就是:凭借我们这边一些硕士生都能做出光用手和一个摄像头就能控制赛车前进、左右转、后退等操作,对于那些在 theory和programming方面无懈可击、又通过各种top ranked会议和期刊验证过,进入微软的优秀人才们,这些其实都是小儿科。
ok,我承认我动机不纯。不过,我在今天满屏的泛酸和下限贴中,总算找到了一点营养,我很高兴。感谢LZ分享。


TOP

引用:
原帖由 cf3b5 于 2009-6-2 13:57 发表
觉得确实不值得的大惊小怪的也属于泛酸?
老TG的时候我就翻译过一个长篇的讲摄像头科技的文,所以我并不奇怪技术可以达到的高度和完善度。不过看到实际的、富于想象力的演示,还是会有情绪上的反应的。

迷信和不信,都很偏执。当然,唯有偏执狂才能生存。这才是TG战区。

TOP

引用:
原帖由 为何不分手 于 2009-6-2 14:32 发表
叉包你要承认 BD写的还是有一定道理的     这次发布会的意义在于指出了方向  但你要是说马上就能实现  那我是不敢相信的 。
恐惧源自无知

BD根本没搞清楚Natal是个什么东西,就拿出他家低科技感的EyeToy出来献宝。笑死人了。我都不好意思喷他。。。

知道了Natal的原理,没什么不能实现的

你仔细看Natal的工作原理好了

http://bbs.tgfc.com/thread-6083009-1-3.html

[ 本帖最后由 RestlessDream 于 2009-6-3 12:20 编辑 ]

TOP

这贴讨论很好很内涵

贴个官方的原理说明,请各位业内欣赏
引用:
纳塔尔计划是如何工作的?

•        纳塔尔计划传感器 纳塔尔计划是全球首个将 RGB 摄像头、深度传感器、多阵列麦克风,和运行特定软件的可定制芯片整合到一起的全新提供,纳塔尔计划将为每台 Xbox 360 主机带来这种体验。Xbox 360独家提供纳塔尔计划传感器,通过跟踪人体全身运动、识别每种语音、创造无遥控器的乐趣和社会化娱乐。

          •        RGB 摄像头 纳塔尔计划拥有一个能提供三原色影像的视频摄像头。作为纳塔尔计划传感器的一部分,RGB摄像头主要负责脸部识别及其他功能。

          •        深度探测器 一个配备了单色 CMOS 传感器的红外投影仪允许纳塔尔计划在任何光照条件下识别房间内的三维空间(而不是将房间作为一个2D图像来识别)。

          •        多阵列麦克风 纳塔尔计划内置一个麦克风,通过声音来识别语音,并过滤环境噪音。多阵列麦克风提供无耳麦的Xbox LIVE多人交谈,及其他功能。

          •        (运行有微软专利软件层的)定制芯片 这一专利软件层使得一切纳塔尔计划的魔法得以成真。这个层,使得纳塔尔计划与目前市场上的任何其他技术都卓而不同,使得纳塔尔计划有能力识别人体并过滤其他视觉干扰。
[ 本帖最后由 RestlessDream 于 2009-6-3 12:21 编辑 ]

TOP

引用:
原帖由 baozhiyu 于 2009-6-3 12:42 发表
怎么还搞上红外了?

两个摄像头就可以组成一个binocular stereo来识别深度,和人眼一样的道理
精确度  精确度  精确度

TOP

引用:
原帖由 倍舒爽 于 2009-6-3 12:53 发表
那肯定不便宜了~
不过在营销方面应该试图把群众拿这外设当成一台新主机来购买~

这样再不便宜也觉得值。。。
你又再次成功突破下限了……

TOP

我发现很多人的思维真的很简单……或者说,单线程的

只能听到声音,可能是瞎子

只能看到图画,可能是聋子

微软反复说,RGB摄像头+深度传感器+多阵列麦克风,还有一个关键的,综合处理这些数据的可定制芯片

这才是一个完整的智能识别系统

综合创新,不是简单地把零部件堆放起来。

唉……我都替你们觉得累………

TOP

引用:
原帖由 cuberoot 于 2009-6-3 14:32 发表
这些识别都是基于模型的,比较容易遇到鲁棒性上的问题。

例如一个残疾的、畸形的、假肢的人。。。或者一张烧伤的脸。。。
到时候极容易被人告上法院啊。。。
这种极端个例根本不用纳入讨论范畴。盲人还根本不能玩 Video Game呢,告谁去

TOP

引用:
原帖由 村上春樹 于 2009-6-3 15:50 发表
Johnny Lee 現在也是natal計劃的一員,詳情可見他的BLOG

http://procrastineering.blogspot.com/2009/06/project-natal.html

一個cmu的互動科技博士生進了微軟先進科技研究部門,才猶如發現自己只是一位智慧 ...
是的。Johnny Lee说了,真正进入每家每户客厅的时候,还会更加震撼。

TOP

引用:
原帖由 BD 于 2009-6-3 20:47 发表
233max,你这种缺乏技术常识的人,除了能认字念出这些名词之外,你知道你反复重复的这些名词都是什么么?是不是听起来都很牛逼,所以你自然觉得都是牛逼科技了?

另外,我比较同意倍舒爽的意见,这东西售价肯定可以当作一台或者半台主机来买了,对于一个把130W像素Live Vision卖39.99,一个最基本的无线网卡卖99.99的微软,这种摄像头+传感器+麦克风+处理芯片,我觉得怎么也要个129.99吧。诺~半台 XO出来了。
你昨晚充过电了是吧。我一直觉得,在常识方面,你是专家,无人能出你右者。比如强大的PSN,强大的GAME 3.0,强大的EyeToy按摩棒,比如强大的技术的索尼是不可超越的,等等,这些常识,的确很需要普及,尤其是对微软有好感的人群,最好接种疫苗。在你的,技术常识的世界里,一切充满秩序,没有噪音,没有微软,只有歌颂纯净、高贵、真正牛逼(不只是听起来牛逼,是真的牛逼)的技术的索尼的唱诗班的歌声。

作为有常识的、懂技术的、忠诚的索尼业内战士,你不用等太久,就能拿到“传说中的” Natal 开发包了。
引用:
"None of those rumours did justice to what we were actually doing with Project Natal. People expected a controller you put in your hands," Microsoft's Shane Kim said to VentureBeat. "We have done a lot of work in natural user interfaces. Voice recognition is one of them. That's why we have been able to deliver development kits for it this week."
本周 Project Natal 开发包就开始派送了,你可以自己订一份

到时候记得上图,旁边写个 TGFC BD 啥的,然后批判一下这个东西有多低科技,码个长文之类的

哦,顺便说一句,关于成本的问题,上面有人提到了Johnny Chung Lee,他最出名的那段视频叫 “the $14 steadycam.” 你不知道的话,可以翻页补课。

哦,顺便再说一句,Johnny Lee 拿到Ph.D之后现在也进入微软工作了,而且就在搞 Project Natal。
引用:
Now, I should preface by saying I don't deserve credit for anything that you saw at E3. A large team of very smart, very hard working people were involved in building the demos you saw on stage. The part I am working on has much more to do with making sure this can transition from the E3 stage to your living room - for which there is an even larger team of very smart, very hard working people involved. The other thing I should say is that I can't really reveal any details that haven't already been made public. Unfortunately.
说到这里,我也觉得很 unfortunate... 我怎么就能在网上碰上这样的帖子,和喷出这样帖子的人物呢……

感谢索尼!:D

TOP

引用:
原帖由 THX1 于 2009-6-3 20:40 发表
一个写字视频 一个射箭视频,其实已经可以让人感觉到SONY 体验的强大了,不是说MS做不出来,但是现场的DEMO,感觉真的很容易就能在游戏中应用,比起MS现场大部分的播片演讲,sony 是100%的现场真人show,哪两个家伙现场搞怪笑点很强,看得睡意全无,就算再丑,手里拿着东西也比拍空气好,而且把真人影响和虚拟道具结合在一起了,我是看好sony!
你当TG的人都没看过两场发布会直播么

TOP

一再有人跑进来展示可怜的想象力。那SCE的体感怎么办,又能玩啥呢

TOP

引用:
原帖由 倍舒爽 于 2009-6-3 22:07 发表
茶煲既然你都说大部分人的思维都太闭塞,
那你现在能不能简单通过文字设计一个游戏方案??
很简单,Heavy Rain 的实际游戏Trailer都看过了吧?有PS3的可以去PSN下,没有的去Gametrailers.com下

然后你把里面所有的需要按键的QTE,全部换成Natal,想象一下

实际上我玩靛色寓言的时候,就想过,某些场景用摄像头操控的话就太棒了

再比如,寂静岭,我只增加一个互动,就能很有意思:一个大眼怪,被他看见你就被秒杀,然后你只要通过双手捂住脸,就可以躲过攻击。(Natal的3D传感器和脸部识别就可以做到)
想象一下,突然冒出一个怪,你可以近乎本能的捂住脸。然后透过手指缝隙看到怪物推散,这不是很有趣么?
——这是有控制器的条件下做不到的体验。PS3和Wii都办不到,而Natal可以,因为没有控制器,也就意味着,什么都可以成为控制器。

所以,体感不是玩空气,是有画面和声音不停提供回馈的。

电子互动娱乐的底层结构(这个前一阵刚和JUMP讨论过)就是: 控制--回馈--再控制--再回馈,并以感官娱乐的积累和满足为最终目标。

如果狂按键,可以成为一种乐趣,那么捂住脸、做手势为什么不能成为一种乐趣。你的“娱乐体验”并不是因为做了手势就有趣,而是因为做了手势,屏幕上的反馈才变得有趣。
关键是,回馈了你什么。只要回馈的lust足够精彩,控制难度再高也能激发人挑战的兴趣。何况 Natal要做的是降低这个门槛。取消的是 controller,不是control。

TOP

 22 12
发新话题
     
官方公众号及微博