一个摄像头(没看清,不确定是不是有第二个,有就没有问题)难以扑捉深度信息(depth information)值得商榷。
Project Natal
最后来说说这次发布会重点中的重点,高潮中的高潮——Project Natal。从演示的内容来说,Project Natal是三种技术的融合:语音识别,动作捕捉和人工智能。了解IT业界的相信对这三个词汇都不陌生,这些都是计算机领域的边缘学科。从很多年前就被列为IT产业发展的方向,进行重点的研究。谁能在任何一个领域有所突破,不但能够对科技进步带来突出的贡献,也将会拥有未来的财富。可惜的是,在这些概念产生的一二十年内,这些技术发展的速度可以用龟速来形容。人工智能就不说了,自从图灵之后,就没有任何实质性的突破。到如今,依然是海量的if…then… 所堆砌出来的代码。语音识别,10年前就看过微软通过海量语音输入学习,从而了解输入者发音习惯的机制,到如今依然还是这个机制。要么或者是Fonix那种只能对极有限词汇进行模糊识别的引擎。从未有任何一款技术真正实现了对人语言表达的识别。动作捕捉同样,时至今日,游戏和电影中所使用的Animation还是要通过专业Motion Capture设备,数十个摄像头,在专业的场地,被Capture的还需要穿着带有数十个能够代表Key Point信息的服装,方才能完成。而且这样的出的数据还要经过专业的Animator做海量的手动调整才能使用在游戏和电影中。或许微软收购了在某个领域内有突出研究的公司,但是如果说就此便能有演示中的突破,并且可以在XO这种机能和上百美元(左右)的外设配合下体验到,我觉得常识会阻止我去相信这种东西的存在。
再看今天的实际演示,所有具备“未来”科技感的演示都来自播放的视频。而现场的演示全都局限于一个人的极其有限的互动。现场的“踢球”和“作画”基本上都是Eyetoy级别的演示,甚至不如之前的Eyepet和几个 Eyetoy的Concept Video。外设本身也无非是增加了摄像头的数量,从而提供了诸如对于物体空间感的判断而已。而且不出意外的是,这次发布会上并未公布(不确定,因为Stream的时候中断过几次,不过之后我也没找到相关的信息)外设的发售时间。从常理上判断,意味着今年内应该不会上市,自然的也不会有相关的游戏出现。换言之,至少年内这事儿不会穿帮。
当然也会有人说,视频中或多或少有夸张的成分,可以说是一种对“目标能达到效果的预期”。这是商业中很正常的事情,不必太当真。然则我就觉得更加可笑了,E3 06中KZ2使用Pre-render Video作为游戏Concept阶段的演示,也是业界惯用的做法,为何某些人时至今日都耿耿于怀,却对微软“科幻”般的演示如此容易释然呢?
原帖由 FXCarl 于 2009-6-2 13:47 发表
LZ 说的很棒,但是都是在理想环境
实际上如果一个人的客厅布光不均匀,就不会有那么好的效果。
脸部识别的问题,我们相信现在数码相机的水准……是不是脸……基本上不会找错。但是是不是认得人,却要靠“运气” ...
原帖由 laarcenciel 于 2009-6-2 13:49 发表我不是专家,也不一定正确,仅仅想大家讨论一下,不对之处还请指出。
我大概浏览了一下,没有细看。motion capture那段没有错,很多电影或游戏都是这样的,原因是计算机模拟人体自然运动很不容易(几乎不可能真实还原),动作扑捉更加经济和有效。
而微软演示这些computer vision方法的运用领域却不在于此。他的目的只是“扑捉”人体的某个运动,然后通过相应的graphics方面的东西呈现出来:抑或是跟随人体做出相应动作(插轮胎),抑或是对人体动作做出反馈(球弹开),并没有很严格的要还原人体运动的目的。
另一个是我相信微软demo可行的地方就是:凭借我们这边一些硕士生都能做出光用手和一个摄像头就能控制赛车前进、左右转、后退等操作,对于那些在 theory和programming方面无懈可击、又通过各种top ranked会议和期刊验证过,进入微软的优秀人才们,这些其实都是小儿科。
原帖由 FXCarl 于 2009-6-2 13:55 发表
还有想说的是……
游戏对于操作的竞速要求,和实验室的“可用”要求还是有很大区别的。
就说操控车辆驾驶着一个…… 可能遥控车辆运动,你的手部动作可以指定车辆运动就OK了。而实际游戏即便是最简单的赛道和赛 ...
原帖由 xphi 于 2009-6-2 13:55 发表
其实这东西的工作原理在演示中基本都能看到,演示里面那个“装象”就再明白不过了。这个东西基本就是个玩具,不要把工业用的东西拿来比较,从演示看这个产品是不能用精确、准确来形容的,只能处理个大概动作。但是如 ...
纳塔尔计划是如何工作的?
• 纳塔尔计划传感器 纳塔尔计划是全球首个将 RGB 摄像头、深度传感器、多阵列麦克风,和运行特定软件的可定制芯片整合到一起的全新提供,纳塔尔计划将为每台 Xbox 360 主机带来这种体验。Xbox 360独家提供纳塔尔计划传感器,通过跟踪人体全身运动、识别每种语音、创造无遥控器的乐趣和社会化娱乐。
• RGB 摄像头 纳塔尔计划拥有一个能提供三原色影像的视频摄像头。作为纳塔尔计划传感器的一部分,RGB摄像头主要负责脸部识别及其他功能。
• 深度探测器 一个配备了单色 CMOS 传感器的红外投影仪允许纳塔尔计划在任何光照条件下识别房间内的三维空间(而不是将房间作为一个2D图像来识别)。
• 多阵列麦克风 纳塔尔计划内置一个麦克风,通过声音来识别语音,并过滤环境噪音。多阵列麦克风提供无耳麦的Xbox LIVE多人交谈,及其他功能。
• (运行有微软专利软件层的)定制芯片 这一专利软件层使得一切纳塔尔计划的魔法得以成真。这个层,使得纳塔尔计划与目前市场上的任何其他技术都卓而不同,使得纳塔尔计划有能力识别人体并过滤其他视觉干扰。
原帖由 RestlessDream 于 2009-6-3 12:17 发表
恐惧源自无知
BD根本没搞清楚Natal是个什么东西,就拿出他家低科技感的EyeToy出来献宝。笑死人了。我都不好意思喷他。。。
知道了Natal的原理,没什么不能实现的
你仔细看Natal的工作原理好了
http:// ...
原帖由 gopcboy 于 2009-6-3 12:34 发表
其实仔细想想,用摄像头捕捉玩家手指的变化
真的不如直接玩家握个手柄按一下来的快,而且有手感啊
微软应该会想到这么基本的问题吧
搞的太高科技了也不好
我只想要能精确定位动作的东东就好了
原帖由 倍舒爽 于 2009-6-3 12:43 发表
30fps的侦测速率从哪里看来的??没找到。。。
我觉得应该不只。。。
你试想你用相机以1/30拍一个动作,要动作凝固得好,那动作要多慢才能凑合上那快门速度???
不然就是那动态模糊了。。
原帖由 教师随笔量产型 于 2009-6-3 12:52 发表
很显然MS的东西并没有像动作捕捉那样全程跟踪人体的每个肢体动作轨迹,而是只跟踪关键动作,尤其是关节的动作判断出运动轨迹,这样显然运算量会降低很多,而且算法简化多了。本来游戏也不需要搞得那么精密,只要正确 ...
原帖由 HalaEspanol 于 2009-6-3 12:55 发表
But the major breakthrough, he says, has been getting the camera to register how the entire skeletal system works. "That's something people have not yet been able to solve yet with this kind of tech ...
原帖由 RestlessDream 于 2009-6-3 13:08 发表
我发现很多人的思维真的很简单……或者说,单线程的
只能听到声音,可能是瞎子
只能看到图画,可能是聋子
微软反复说,RGB摄像头+深度传感器+多阵列麦克风,还有一个关键的,综合处理这些数据的可定制芯片 ...
原帖由 RestlessDream 于 2009-6-3 13:08 发表
我发现很多人的思维真的很简单……或者说,单线程的
只能听到声音,可能是瞎子
只能看到图画,可能是聋子
微软反复说,RGB摄像头+深度传感器+多阵列麦克风,还有一个关键的,综合处理这些数据的可定制芯片 ...
深夜惊魂之headtrack
其实就讲了近两年的所见所闻, 题目可能并不恰当
| Johnny Lee的wiimote headtracking
一切都是从两年前johnny Lee在youtube发布的这段视频开始
Johnny Lee.jpg (15.01 KB)
28/3/2009 00:26
这个视频造成了轰动性的效应,包括国内各大IT网站在内的世界范围内IT媒体都对这个技术作了介绍
根据最新情报,Johnny Lee在推出这个视频不久,立即被Microsoft招安到旗下游戏部门行研发(根据个人估计应该是应用到下一代主机上)
其实,Headtracking并不是Johnny Lee的发明,在更早之前,使用电脑玩模拟游戏的玩家就开始使用各种形式的头部动作捕捉,例如下面这个视频:
http://www.youtube.com/watch?v=HIu87lKxZsI
track ir.jpg (29.13 KB)
28/3/2009 00:26
那么,也许会有人问,既然早就有了headtracking,Johnny Lee的贡献在哪里?
| 进入正题:Johnny Lee headtracking技术的思路
通过上面的两个视频,相信大家也可以得出两个结论:
1、Headtracking并不是Johnny Lee的发明
2、Johnny Lee是应用headtracking这个技术,把软件应用带到了更高的层面——虚拟3D
以往,人们观察电脑屏幕,人头部动作、位置的变化并不会造成显示内容的任何改变,这是一切“平面图象”的基本属性
而实际上,现实生活中,有“横看成岭侧成峰 远近高低各不同”的说法,因为观察角度不同我们都会看到不一样的景致
Johnny Lee最大的贡献——他利用一个已经成熟的技术,也就是headtracking,来实现了“立体观察”3D物件的原理
是的,Johnny Lee胜在他对Headtracking的应用思路上
| J.L式Headtracking应用,对于3D呈像的贡献
第一,我们通过红蓝眼镜、分时眼镜等方式,以左右眼不同角度的交错图实现了视觉上的立体纵深感
第二,J.L通过Headtracking实现了电脑内部处理3D物件在观察形式上的立体感
想象一下当这两种技术结合在一起——电脑呈像技术将进入“准全息”时代
这就是我在上一张帖子里提到的“S3D+headtracking是未来3D的趋势”,而这贴就是向不了解这个技术的朋友作入门介绍
我把这两个技术提到一起来比较,还有两个原因:
1、他们在技术上实际上都已经相当成熟,只是缺乏大众广泛的认识
2、他们实现的成本实际上都可以做到很低,普及的可实施性很大
| 要实现Headtracking,成本可以做到多低?
Johnny Lee视频在发布之处,很多人着迷于利用wiimote来实现headtracking,因为这样的技术比之前使用track ir成本低了不少
不久之后,就有更逆天的技术出现了,请见下面的视频:
http://www.youtube.com/watch?v=Q-nrmxNKt84
webcam track.jpg (21.36 KB)
28/3/2009 00:34
实际上,在J.L视频之后一个月左右,我就看到国外有高手利用webcam(也就是很常见的网络摄像头)实现了J.L视频一模一样的效果
这种技术被称为webcam track
其成本可以想象——从人民币20元起价到100多元,电脑城遍地都有这种产品买
| Webcam Track的原理
仅仅靠摄像头,如何判断人头部在显示器之前空间内的三维位置呢?
这是托IBM(或者是Intel?)一个叫Open CV的开源项目的福
这个项目中提供一个关键性技术——人类面部识别,这个技术允许电脑通过分析webcam捕捉到的图象,得到人类面部的信息,并通过对这张脸大小变化、眼鼻嘴相对位置的变化,来解读人脸距离摄像头远近、高低、左右的信息
远近、高低、左右——这实际上包括了三维空间中的关键性维度,在这个层面的三维追踪被称为6dof(6 degrees of freedom)
也就是通过这个技术,利用普通摄像头webcam电脑也能判断出用户脑袋和显示器的相对位置——从而实现了headtrack,头部动作捕捉和追踪
webcam headtrack实验性应用的网络游戏,想象一下headtrack + S3D的效果
http://www.youtube.com/watch?v=SewngkDJCyY&NR=1
| Webcam Track的其他应用
既然提到webcam track,就顺带介绍一下主流利用webcam来捕捉、追踪的利用形式:
1、头部动作捕捉,headtrack,前面已经提到了,主要用在模拟游戏驾驶仓模拟观察以及3D物体立体观察,另外一个没提到的应用是这个:http://www.youtube.com/watch?v=f6caQ0IxBIo
2、红外线捕捉,leaser track,利用摄像头一样可以捕捉红外线,可以用于鼠标模拟,当然也有把红外发射器绑在帽子上来实现头部动作捕捉的
3、形状捕捉,分析webcam拍摄下的特定形状,如蓝色方块、红色方块等,根据方块的形状、大小变化来分析解度三维空间数据,基于这个技术的有camspace提供的用色块替代手柄的软件,还有日本人开发的虚拟女仆(Camspace:http://www.youtube.com/watch?v=v0srY37kkMw , 虚拟女仆:http://www.geishatokyo.com/jp/ar-figure/figure.html)
4、多点触碰捕捉,网上有高手在摄像头前设置毛玻璃一块,当手指点到毛玻璃的另外一面,摄像头捕捉到手指的黑色阴影,并将其转换成多点触碰的信号,国内有达人用此来diy了microsoft的surface互动桌面技术(surface的视频:http://www.youtube.com/watch?v=rP5y7yp06n0)
| 前景展望
很多技术其实已经存在很多年,只是一直缺乏推广
例如nintendo在nds上加入的触摸屏,在wii上加入的leaser track和动作感应(nintedo早年还有一个失败的尝试,vitual boy,实际上就是如今我们玩的3D游戏眼镜的远古版本),实际上都是成型多年的老技术,得到厂商推广后立即风起云涌,从这个角度上来说,wii最早被命名为revolution,改变的不仅仅是一时市场占有率,更让所有厂商和玩家(可能不包括“从小玩FC长大的资深高级非样板戏不玩高品位玩家”)转换了思路,让竞争对手也意识到原来主机的发展还有很多方向,技术发展之路上的未来明星技术还有很多被遗落在了身后、缺乏伯乐的赏识,等待人们去开发
现在而言,3D立体呈像技术在nvidia的推动下已经初具规模,接下来我仅期望能有有识之士能让J.L试headtrack发扬光大起来,这样我们就可以早日进入“准全息3D游戏时代”了[
原帖由 cuberoot 于 2009-6-3 14:32 发表
这些识别都是基于模型的,比较容易遇到鲁棒性上的问题。
例如一个残疾的、畸形的、假肢的人。。。或者一张烧伤的脸。。。
到时候极容易被人告上法院啊。。。
Now, I should preface by saying I don't deserve credit for anything that you saw at E3. A large team of very smart, very hard working people were involved in building the demos you saw on stage. The part I am working on has much more to do with making sure this can transition from the E3 stage to your living room
原帖由 村上春樹 于 2009-6-3 15:50 发表
Johnny Lee 現在也是natal計劃的一員,詳情可見他的BLOG
http://procrastineering.blogspot.com/2009/06/project-natal.html
一個cmu的互動科技博士生進了微軟先進科技研究部門,才猶如發現自己只是一位智慧 ...
原帖由 RestlessDream 于 2009-6-3 13:08 发表
我发现很多人的思维真的很简单……或者说,单线程的
只能听到声音,可能是瞎子
只能看到图画,可能是聋子
微软反复说,RGB摄像头+深度传感器+多阵列麦克风,还有一个关键的,综合处理这些数据的可定制芯片 ...
原帖由 THX1 于 2009-6-3 22:40 发表
一个写字视频 一个射箭视频,其实已经可以让人感觉到SONY 体验的强大了,不是说MS做不出来,但是现场的DEMO,感觉真的很容易就能在游戏中应用,比起MS现场大部分的播片演讲,sony 是100%的现场真人show,哪两个家伙现 ...
原帖由 doomking 于 2009-6-3 18:14 发表
从wii上来看,最受欢迎的应用了体感的游戏都是有现实运动基础的游戏,光枪,球类,赛车,刀剑;
体感能有效降低这类运动的难度并且实现良好的体验
可惜这类游戏在没有实体手感和振动的NATAL下玩的感觉都会及其SB,参 ...
原帖由 BD 于 2009-6-3 20:47 发表
233max,你这种缺乏技术常识的人,除了能认字念出这些名词之外,你知道你反复重复的这些名词都是什么么?是不是听起来都很牛逼,所以你自然觉得都是牛逼科技了?
另外,我比较同意倍舒爽的意见,这东西售价肯定可以当作一台或者半台主机来买了,对于一个把130W像素Live Vision卖39.99,一个最基本的无线网卡卖99.99的微软,这种摄像头+传感器+麦克风+处理芯片,我觉得怎么也要个129.99吧。诺~半台 XO出来了。
"None of those rumours did justice to what we were actually doing with Project Natal. People expected a controller you put in your hands," Microsoft's Shane Kim said to VentureBeat. "We have done a lot of work in natural user interfaces. Voice recognition is one of them. That's why we have been able to deliver development kits for it this week."
Now, I should preface by saying I don't deserve credit for anything that you saw at E3. A large team of very smart, very hard working people were involved in building the demos you saw on stage. The part I am working on has much more to do with making sure this can transition from the E3 stage to your living room - for which there is an even larger team of very smart, very hard working people involved. The other thing I should say is that I can't really reveal any details that haven't already been made public. Unfortunately.
欢迎光临 TGFC Lifestyle (http://bbs.tgfcer.com/) | Powered by Discuz! 6.0.0 |