» 您尚未登录:请 登录 | 注册 | 标签 | 帮助 | 小黑屋 |


发新话题
打印

[业评] 从一个computer vision从业者角度看微软的“火星科技”

RT。

我是一个在读博士,领域是computer vision,在国外某大学。

这次微软火星科技实际上包括face recognition、gesture recognition、motion tracking几个经典运用。

先说人脸识别face recognition,这已经是一个做了20多年做烂的学科,一般光线和正脸无遮挡面对相机情况下没有任何难点。这些年这方面成品化已经很普遍,比如索尼相机的smile shutter就是先检测出脸部、再判断表情的。微软演示中出现了LIve id的识别,这也是这方面运用。只要先检测出脸,在正脸情况和光线充足下检测出每个人脸上不同的特征点(salient points)就可以,很简单。

再来gesture recognition,这是compter vision这几年比较热的一个方向,这几年的好会议,像ICCV、CVPR、ECCV上都有记录。说句题外话,微软是computer vision研究方面如果说第二,没人敢说第一。微软旗下的MSRA、欧洲和雷蒙德研究和成品化力量绝对不是任何一家其他大学和公司研究机构能比拟的,这个我们这些人都明白。gesture recognition现在一个难点在于real-time处理,不过在游戏机上运用问题不大,而且这里面很多都是先检测出身体一部分(比如手 hand detection 游戏机离不开手部操作),在跟踪(tracking),用轨迹分析表演者的意图,再反馈相应操作,这些从技术上看没有任何问题。实际上我们也做过一个demo,就是用一个摄像头,扑捉手部运动,来开赛车游戏;手上不需要任何controller。

最后是motion tracking,一个研究了N年的问题,我不想说了,打的很累。总之,没难点。


--------------------------------------------------------------------------------------------------------------------
我总结一下:

微软这次demo,所演示的都是computer vision过去5-10年现成的,已经成型的技术,实现起来不会存在问题。不过demo过程中会有一些概念的成分,比如伸手插轮胎等,一个摄像头(没看清,不确定是不是有第二个,有就没有问题)难以扑捉深度信息(depth information)值得商榷。

欢迎其他懂行的同学一起来讨论一下。


本帖最近评分记录

TOP

人机交互方面MS研究的很深入,只不过以前都没有大规模商业化的东西



TOP

终于来专家了。。。


TOP

欢迎砖家液内来到TG,真心话

TOP

引用:
一个摄像头(没看清,不确定是不是有第二个,有就没有问题)难以扑捉深度信息(depth information)值得商榷。
是两个

TOP

引用:
Project Natal

最后来说说这次发布会重点中的重点,高潮中的高潮——Project Natal。从演示的内容来说,Project Natal是三种技术的融合:语音识别,动作捕捉和人工智能。了解IT业界的相信对这三个词汇都不陌生,这些都是计算机领域的边缘学科。从很多年前就被列为IT产业发展的方向,进行重点的研究。谁能在任何一个领域有所突破,不但能够对科技进步带来突出的贡献,也将会拥有未来的财富。可惜的是,在这些概念产生的一二十年内,这些技术发展的速度可以用龟速来形容。人工智能就不说了,自从图灵之后,就没有任何实质性的突破。到如今,依然是海量的if…then… 所堆砌出来的代码。语音识别,10年前就看过微软通过海量语音输入学习,从而了解输入者发音习惯的机制,到如今依然还是这个机制。要么或者是Fonix那种只能对极有限词汇进行模糊识别的引擎。从未有任何一款技术真正实现了对人语言表达的识别。动作捕捉同样,时至今日,游戏和电影中所使用的Animation还是要通过专业Motion Capture设备,数十个摄像头,在专业的场地,被Capture的还需要穿着带有数十个能够代表Key Point信息的服装,方才能完成。而且这样的出的数据还要经过专业的Animator做海量的手动调整才能使用在游戏和电影中。或许微软收购了在某个领域内有突出研究的公司,但是如果说就此便能有演示中的突破,并且可以在XO这种机能和上百美元(左右)的外设配合下体验到,我觉得常识会阻止我去相信这种东西的存在。

再看今天的实际演示,所有具备“未来”科技感的演示都来自播放的视频。而现场的演示全都局限于一个人的极其有限的互动。现场的“踢球”和“作画”基本上都是Eyetoy级别的演示,甚至不如之前的Eyepet和几个 Eyetoy的Concept Video。外设本身也无非是增加了摄像头的数量,从而提供了诸如对于物体空间感的判断而已。而且不出意外的是,这次发布会上并未公布(不确定,因为Stream的时候中断过几次,不过之后我也没找到相关的信息)外设的发售时间。从常理上判断,意味着今年内应该不会上市,自然的也不会有相关的游戏出现。换言之,至少年内这事儿不会穿帮。

当然也会有人说,视频中或多或少有夸张的成分,可以说是一种对“目标能达到效果的预期”。这是商业中很正常的事情,不必太当真。然则我就觉得更加可笑了,E3 06中KZ2使用Pre-render Video作为游戏Concept阶段的演示,也是业界惯用的做法,为何某些人时至今日都耿耿于怀,却对微软“科幻”般的演示如此容易释然呢?
另外,我很想请LZ站在一个专业人士的角度,对另一位资深专业人士的上述发言做些同行评议

TOP

LZ說很容易實現 FRF說不行 至少這幾年不可以 我到底該信誰

TOP

当心被NF喷对着空气发傻

TOP

至少ms是这一领域,还有ai 领域世界最强的公司之一。。。

TOP

引用:
原帖由 金碧辉煌 于 2009-6-2 13:39 发表
当心被NF喷对着空气发傻

这图。。

TOP

业内垒猴

TOP

LZ 说的很棒,但是都是在理想环境

实际上如果一个人的客厅布光不均匀,就不会有那么好的效果。

脸部识别的问题,我们相信现在数码相机的水准……是不是脸……基本上不会找错。但是是不是认得人,却要靠“运气”……

实时的动作捕捉处理,难度不是速度或者算法,而是鲁棒性。如何才能确保在绝大多数用户的家中都可以准确的跟住目标呢?

以 Bojo 等专业摄影机求反都不能拍着胸脯说可以还原出精确的摄影机轨迹(还需要大量的艺术家参与)。在实时领域可能会造成的问题是——当你突然动作幅度过大或者你在侧身状态时间有点长的话 …… 分析你肢体动作的解算器会很容易跟丢目标的。

相比于 Wii 的加速规系统, MS 的这个东西在技术上,理论可行。但是在实践操作的过程中,受游戏环境的影响会很大。同时加上这个东西可能将来也不会是主机的标配 …… 所以估计针对这个东西开发的游戏不会很多。

就算是微软力挺这样的东西 …… 看看 PS3 的 SIXAXIS 的应用想必大家也会有些自己的理解吧。

[ 本帖最后由 FXCarl 于 2009-6-2 13:49 编辑 ]

TOP

引用:
原帖由 RestlessDream 于 2009-6-2 13:36 发表


另外,我很想请LZ站在一个专业人士的角度,对另一位资深专业人士的上述发言做些同行评议

我不是专家,也不一定正确,仅仅想大家讨论一下,不对之处还请指出。

我大概浏览了一下,没有细看。motion capture那段没有错,很多电影或游戏都是这样的,原因是计算机模拟人体自然运动很不容易(几乎不可能真实还原),动作扑捉更加经济和有效。

而微软演示这些computer vision方法的运用领域却不在于此。他的目的只是“扑捉”人体的某个运动,然后通过相应的graphics方面的东西呈现出来:抑或是跟随人体做出相应动作(插轮胎),抑或是对人体动作做出反馈(球弹开),并没有很严格的要还原人体运动的目的。

另一个是我相信微软demo可行的地方就是:凭借我们这边一些硕士生都能做出光用手和一个摄像头就能控制赛车前进、左右转、后退等操作,对于那些在theory和programming方面无懈可击、又通过各种top ranked会议和期刊验证过,进入微软的优秀人才们,这些其实都是小儿科。

TOP

没啥可火星的
像客厅那种简单环境下的语音识别早就不是什么问题了,没什么出奇的,动作捕捉的视频显然太夸张了,在复杂背景和多人情况下的实际效果嘛……出来再看吧,有些通过摄像头对人体本身的结构和动作分析,根本就是不可能的,现在都还在实验室里,先不说别的,光衣服穿的多少效果就会差很多
至于AI,恐怕也就是状态机、决策树一类的东西,毕竟就这种比较可靠,只不过建立的时候麻烦点罢了

还有……诸位表一提AI就是图灵,那家伙跟AI没啥关系,只不过妄想了一把罢了

TOP

引用:
原帖由 RestlessDream 于 2009-6-2 13:36 发表


另外,我很想请LZ站在一个专业人士的角度,对另一位资深专业人士的上述发言做些同行评议

人家说的没错啊,里面都说了常识来说是不可能的,广告,夸张而已

[ 本帖最后由 karsus 于 2009-6-2 13:53 编辑 ]

TOP

发新话题
     
官方公众号及微博