打印

[业评] 从一个computer vision从业者角度看微软的“火星科技”

laarcenciel

小黑屋

帖子: 3729
精华: 0
积分: 12615
激骚: 147 度
爱车
主机
相机
手机
注册时间: 2003-2-18

发短消息
加为好友
当前离线

1^# 大中小发表于 2009-6-2 13:06 显示全部帖子

RT。

我是一个在读博士，领域是computer vision，在国外某大学。

这次微软火星科技实际上包括face recognition、gesture recognition、motion tracking几个经典运用。

先说人脸识别face recognition，这已经是一个做了20多年做烂的学科，一般光线和正脸无遮挡面对相机情况下没有任何难点。这些年这方面成品化已经很普遍，比如索尼相机的smile shutter就是先检测出脸部、再判断表情的。微软演示中出现了LIve id的识别，这也是这方面运用。只要先检测出脸，在正脸情况和光线充足下检测出每个人脸上不同的特征点（salient points）就可以，很简单。

再来gesture recognition，这是compter vision这几年比较热的一个方向，这几年的好会议，像ICCV、CVPR、ECCV上都有记录。说句题外话，微软是computer vision研究方面如果说第二，没人敢说第一。微软旗下的MSRA、欧洲和雷蒙德研究和成品化力量绝对不是任何一家其他大学和公司研究机构能比拟的，这个我们这些人都明白。gesture recognition现在一个难点在于real-time处理，不过在游戏机上运用问题不大，而且这里面很多都是先检测出身体一部分（比如手 hand detection 游戏机离不开手部操作），在跟踪（tracking），用轨迹分析表演者的意图，再反馈相应操作，这些从技术上看没有任何问题。实际上我们也做过一个demo，就是用一个摄像头，扑捉手部运动，来开赛车游戏；手上不需要任何controller。

最后是motion tracking，一个研究了N年的问题，我不想说了，打的很累。总之，没难点。

--------------------------------------------------------------------------------------------------------------------
我总结一下：

微软这次demo，所演示的都是computer vision过去5-10年现成的，已经成型的技术，实现起来不会存在问题。不过demo过程中会有一些概念的成分，比如伸手插轮胎等，一个摄像头（没看清，不确定是不是有第二个，有就没有问题）难以扑捉深度信息（depth information）值得商榷。

欢迎其他懂行的同学一起来讨论一下。

本帖最近评分记录

比卡丘发贴积分 +100 感谢分享 2009-6-4 14:55
RestlessDream 激骚 +3 感谢分享 2009-6-2 13:54

TOP

laarcenciel

小黑屋

帖子: 3729
精华: 0
积分: 12615
激骚: 147 度
爱车
主机
相机
手机
注册时间: 2003-2-18

发短消息
加为好友
当前离线

2^# 大中小发表于 2009-6-2 13:49 显示全部帖子

引用:

原帖由 RestlessDream 于 2009-6-2 13:36 发表

另外，我很想请LZ站在一个专业人士的角度，对另一位资深专业人士的上述发言做些同行评议

我不是专家，也不一定正确，仅仅想大家讨论一下，不对之处还请指出。

我大概浏览了一下，没有细看。motion capture那段没有错，很多电影或游戏都是这样的，原因是计算机模拟人体自然运动很不容易（几乎不可能真实还原），动作扑捉更加经济和有效。

而微软演示这些computer vision方法的运用领域却不在于此。他的目的只是“扑捉”人体的某个运动，然后通过相应的graphics方面的东西呈现出来：抑或是跟随人体做出相应动作（插轮胎），抑或是对人体动作做出反馈（球弹开），并没有很严格的要还原人体运动的目的。

另一个是我相信微软demo可行的地方就是：凭借我们这边一些硕士生都能做出光用手和一个摄像头就能控制赛车前进、左右转、后退等操作，对于那些在theory和programming方面无懈可击、又通过各种top ranked会议和期刊验证过，进入微软的优秀人才们，这些其实都是小儿科。

TOP

laarcenciel

小黑屋

帖子: 3729
精华: 0
积分: 12615
激骚: 147 度
爱车
主机
相机
手机
注册时间: 2003-2-18

发短消息
加为好友
当前离线

3^# 大中小发表于 2009-6-2 13:51 显示全部帖子

引用:

原帖由 FXCarl 于 2009-6-2 13:47 发表
LZ 说的很棒，但是都是在理想环境

实际上如果一个人的客厅布光不均匀，就不会有那么好的效果。

脸部识别的问题，我们相信现在数码相机的水准……是不是脸……基本上不会找错。但是是不是认得人，却要靠“运气” ...

是的，我们现在进行的很多研究都是理想情况下，能不能很好的运用在现实（比如游戏环境），还有待产品的检验。

TOP

laarcenciel

小黑屋

帖子: 3729
精华: 0
积分: 12615
激骚: 147 度
爱车
主机
相机
手机
注册时间: 2003-2-18

发短消息
加为好友
当前离线

4^# 大中小发表于 2009-6-2 13:58 显示全部帖子

引用:

原帖由 FXCarl 于 2009-6-2 13:55 发表
还有想说的是……

游戏对于操作的竞速要求，和实验室的“可用”要求还是有很大区别的。

就说操控车辆驾驶着一个…… 可能遥控车辆运动，你的手部动作可以指定车辆运动就OK了。而实际游戏即便是最简单的赛道和赛 ...

没错，精确度我相信很难达到，指望用手就能开出用罗技方向盘的效果，我觉得很困难。

TOP

laarcenciel

小黑屋

帖子: 3729
精华: 0
积分: 12615
激骚: 147 度
爱车
主机
相机
手机
注册时间: 2003-2-18

发短消息
加为好友
当前离线

5^# 大中小发表于 2009-6-2 13:59 显示全部帖子

引用:

原帖由 xphi 于 2009-6-2 13:55 发表
其实这东西的工作原理在演示中基本都能看到，演示里面那个“装象”就再明白不过了。这个东西基本就是个玩具，不要把工业用的东西拿来比较，从演示看这个产品是不能用精确、准确来形容的，只能处理个大概动作。但是如 ...

同意您说得只是玩具。

事实上我也是这么觉得，就和跳舞毯一样，当时用脚来玩，后来热度一过也没太多人用了。

TOP

laarcenciel

小黑屋

帖子: 3729
精华: 0
积分: 12615
激骚: 147 度
爱车
主机
相机
手机
注册时间: 2003-2-18

发短消息
加为好友
当前离线

6^# 大中小发表于 2009-6-2 14:30 显示全部帖子

引用:

原帖由 Waist 于 2009-6-2 14:27 发表
我有个好友去年刚拿了微软学者的奖，不过他看了视频后好像没啥感想，可能专业方向不一样吧。

也有可能就是做这摊的，觉得没什么新奇，哈哈。

TOP

laarcenciel

小黑屋

帖子: 3729
精华: 0
积分: 12615
激骚: 147 度
爱车
主机
相机
手机
注册时间: 2003-2-18

发短消息
加为好友
当前离线

7^# 大中小发表于 2009-6-4 09:03 显示全部帖子

晕……

想不到我一个帖子能被人战到现在……

其实能不能实现、效果怎样，将来出了以后买一个就一目了然了。

技术层面的东西我不怀疑微软能做到，这些东西实际上在我们做了这么多年cv研究的这些人看来，都没什么很“火星”；只是产品化还没有太多人做过，相信会很有趣。到底最终效果怎样，能否在真实游戏环境中达到理想环境（理想光照、简单背景、无遮挡）的效果，还要眼见为实。

从这个帖子我也感觉到，一些现成的成熟技术，经过重新包装，确实能把不了解这个领域的其他人看的一愣一愣的，哈哈。

computer vision研究确实很有趣。

TOP