» 您尚未登录:请 登录 | 注册 | 标签 | 帮助 | 小黑屋 |


 16 12
发新话题
打印

[业评] 从一个computer vision从业者角度看微软的“火星科技”

引用:
原帖由 BD 于 2009-6-4 07:46 发表

按理说你这样经常码字的人没理由会存在 ...
你懂Mocap吗?还游戏从业者?
我问你一点,动作捕捉里reconstructure的过程是什么意思?


TOP

不需要mark的mocap 2008年就有很成熟的技术,他们为什么没法推广下去,很大原因是mocap在近十年来一直被两家公司所垄断。
至于是哪两家公司,我估计这位自称索饭的BD先生根本就没听说过。
http://gadgets.boingboing.net/20 ... c-motion-motio.html



TOP

引用:
原帖由 村上春樹 于 2009-6-4 12:32 发表
BD刻意模糊MOTION CAPTURE與NATAL的差別,然後加諸一項「常識上」兩百美金的東西不可能與兩萬美金的東西一樣好而否定前景

eyetoy+ 按摩棒最高.

NATAL不需要做到抓取MOTION CAPTURE那樣層級的資料量,它只 ...
如果我们还是按照一般mocap的使用红外来追踪Mark点,要判断人关节很简单,只需要放两个点在关节上,便立即会知道是属于手臂,因为游戏指定要用手臂来玩,当然玩家也可以放到腿上,胸口上,但是从游戏操作来说,就会比较怪。
mocap至所以需要这么多camera,关键原因还是需要知道mark点到底属于哪个部分,当身体把一个方向camera射线挡住时,在另外几个方向的cam还是能追踪到,通过配套的软件进行运算,便能知道捕捉时消失的点在哪个位置上。
mocap和motion tracking是两个概念,mocap是把人身体的所有动作捕捉出来,需要完全能还原actor本身的动作特性,60~120帧的捕捉频率,因为身体遮蔽和多人的关系,需要更多的camera来追踪不停消失的mark并把数据还原出来,和motion tracking是追踪某一时段的特殊动作,比如挥剑,或两手抖动,只要有算法识别,便能做出反应。
两者需要的设备和精度完全不在一个层面上。mocap需要的是完全还原动作本质,和tracking只需要知道近似值即可。
BD先生连这些基本概念都不懂,就出来瞎说一通,是不是会误人子弟?哈哈哈


TOP

引用:
原帖由 RestlessDream 于 2009-6-4 12:42 发表

因为他自认摸过Motion Capture设备,一种莫名的优越感让他认为众软匪(尤其是我)没摸过,怎么可能知道真相呢。

其实BD老师一向很关心大家的常识普及度,所以一直用粗壮诚实的态度,朴实无华的语言,全都正确却 ...
我还摸过sony老家的mocap设备呢,哈哈。
我敢和你打赌BD先生肯定不知道sony老窝里的到底配了多少玩意,虽然他自称是个索饭。

TOP

引用:
原帖由 ffcactus 于 2009-6-4 13:07 发表

本人学的电子信息科学与技术, 很看不惯外行冲内行YY到高潮。小台妹。
既然专业对口,也算内行吧,就跟我这个外行讨论一下吧。
在动作捕捉处理上,从mark点数据转换成skeleton information那个数据的过程是怎么做到的?
可能说得比较深奥你听不懂,我再简单点解释,在算法上如何将点信息关联起来,并转换为人体实际的骨点关节活动信息?
这么简单的事情,我想以你自称的教育背景而言不会不知道吧?
另:google上搜不到这些东西,凭你真本事来回答吧,好吗?
别让我这个外行失望哦,哈哈哈。

TOP

龙哥最看不惯的就是不学无术,滥竽充数,自称行家的人,奇怪的是这种人往往都自称“索饭”。
对一些东西一知半解,自以为懂个皮毛就能唬住别人,殊不知自己无意中露了底。
龙哥可是外行哦,但就是比这帮混混知道的多那么一点,呵呵。
人家好好讨论的帖子,偏就有些杂碎进来捣乱,混淆视听,什么都不懂就搞科普教育。
唉,庸医害人,殊不知南郭先生进了朝廷更是祸国殃民。

TOP

引用:
原帖由 laarcenciel 于 2009-6-2 13:06 发表
RT。

我是一个在读博士,领域是computer vision,在国外某大学。

这次微软火星科技实际上包括face recognition、gesture recognition、motion tracking几个经典运用。

先说人脸识别face recognition,这已经 ...
depth info可以通过红外传感来取值,不过我估计以PN那种硬件设备,得到信息并不是很准确。
事实上我认为如果MS再加一台camera,用两台位置不同的camera来获取信息,并在处理中进行calibration,可能得到深度信息会更准确。
按照传统motion capture做法,如果要外设,比如棒球棒,只要在棒球棒两端各加一个特殊反光材质的mark便可以很准确的取得translation和rotation值。
但是只有一台camera,如果在object和cam之间有物体阻挡,或者灯光环境很差,是很难得到动作信息的,除非像我之前所说的,增加不同角度的camera,以获得修正值。
所以所谓的project natal只是能作为玩具而已,其中的限制也是很多的。
所谓动作识别以及脸部识别,或是motion tracking,从提出概念到技术成熟起码已经过了10年,技术上如楼主所言,已经是非常成熟。
但是最难并不是这些,而是系统如何对动作进行处理,比如我挥棒球棒,在不同角度下击打,根据取得的数值如何作出判断,是homerun,还是out,只要有一个处理不好,对玩家的影响都是很大的,而这个部分就不是龙哥说熟知的,龙哥在这里欢迎不是自称“内行”的各位讨论。
像ff神这种就免了吧,呵呵。

[ 本帖最后由 龙哥 于 2009-6-4 20:13 编辑 ]

TOP

引用:
原帖由 ffcactus 于 2009-6-4 20:26 发表


知道点的距离, 知道角度, 还算不出点的空间坐标?
问题是这些有什么用?
你就算描绘得和照镜子一模一样, 你还是脱离不了YY的本质啊。
“网络购物的局限性”“远程手术的局限性”“无法性高潮” 这些你还是 ...
mark只是提供3D空间坐标而已,并不是vector信息...
你到底懂不懂我在问些什么?

TOP

引用:
原帖由 村上春樹 于 2009-6-4 20:41 发表


越看越覺得你這個電子訊息本科系修得名不符實了

哪裡的野雞學校啊?  大陸地區我不懂,你就光明正大地說出來給大家看看是不是哪一個省分的名校.
说来惭愧,龙哥在国内大学没读完,就被流放到蛮夷之地的野鸡学校,唉,学的东西和理科没关系,算是文科吧,不好意思,就给ff先生说中了,是文科生在码字。

TOP

引用:
原帖由 ffcactus 于 2009-6-4 20:44 发表


你到底只不知道别人在说什么, 从开始到现在就没人否定到底能不能捕捉动作, 能不能识别面容。这根本就不是前面我们质疑的东西。
可惜你那高贵的大脑始终是反映不过来。或者习惯与卖弄自己的技术。
我一直在说的是这个技术的局限性。
第一,微软的演示中有虚拟的对象与用户交互, 我认为在人工智能没有达到新的高度前, 这些都意义不大, 至少不会给用户带来什么全新的体验。
第二,体感作为输入方式,使用范围很小。这也是为什么这个早就存在的技术, 在电子技术日新月异的今天至今也没得到多大运用的原因。
第三,微软的那套什么PN与其说是体感, 不如说是体控,或测体, 因为除了视觉和听觉外,人体本身没有得到任何反馈。
嗯,要讨论AI,也行啊?
什么叫state machine,解释来听听,这种机制在游戏中的运用也让我这种外行长长见识。
来吗,说说看,说不定就对咯:D
哈哈哈

TOP

引用:
原帖由 superjay 于 2009-6-4 21:05 发表


机器狗的概念也是我在另外一个帖子里提醒他的,这孩子现学现用啊,不但嘴巴硬得很,脸皮也有SF风范
龙哥自认也是索饭,真是惭愧啊
索饭的下限被某些伪索饭拉得太低,龙哥作为正義の味方,怎么能坐视无睹,今天要替天行道,为索饭清理门户!

TOP

引用:
原帖由 superjay 于 2009-6-4 20:26 发表

关于单摄相头采集三维空间数据的一些想法(确实外行,用词不准请包含)

1、track ir就是利用face track,根据脸部五官轮廓大小变化、高低变化、相对位置位置变化来得到远近、高低和旋转的信息,我是这么理解的

2、同理,有个叫camspace的公司,webcam来track利用特定形状的有色纸片,得到三维空间信息,以色块绑定、模拟鼠标或者手柄操作(这个软件前几个月公测了,不过我没试)

3、日本人则利用类似的色块track技术开发了可以互动的桌面女仆…………

4、其实PS3早年干打雷、不下雨的那个桌面猴子游戏、万智牌游戏也是这个原理,不过是静态的

4、反观Natal,或许是将正面采集的、标准体形人类的四肢数据模块化,根据四肢各端大小、上下信息变化来得到玩家的动作信息..
小日本那个我看过,是基于augment reality上的,这个和VR不一样。
wiki上有比较清楚的解释,有兴趣可以看看,挺有意思的
http://en.wikipedia.org/wiki/Augmented_reality

另:我们这类外行看东西,希望能看到大家有意义,有闪光点的想法,自己也能学到点东西。
那些连中学水平都没有,滥竽充数的“行家”,你就放过我等无知小民吧。

TOP

引用:
原帖由 superjay 于 2009-6-4 20:26 发表


关于单摄相头采集三维空间数据的一些想法(确实外行,用词不准请包含)

1、track ir就是利用face track,根据脸部五官轮廓大小变化、高低变化、相对位置位置变化来得到远近、高低和旋转的信息,我是这么理解的 ...
单个camera捕捉再怎么弄还是2D数据,要形成3D空间定位,理论上至少需要2个不同角度下的camera,但据说实际上需要6个才能得到精确数值。
如果单纯靠scale,height的信息作为depth参考信息,会很不精确,比如姚明的脸比正常人大这么多,那该怎么判断?
当然在游戏的一开始可以做矫正修正这个结果,但是从用户体验上来说,手动矫正这个过程是比较麻烦的。
手势识别,脸部识别只要有足够的数据输入,要做出相应的反应,在现在的技术层面上是完全可以实现的,但前提是需要保证得到数值是近似准确的,否则便会出现偏差。
ndsi的有个wario下载游戏,就是利用脸部识别和手部识别来玩的,当然他对你的要求很死,必须在光亮环境下,而且必须人对准camera,因为是30万像素的头,所以识别起来还是有点问题的。
得到精确数据,首先就要提高camera的resolution,第二,降低对光度的要求,这估计就是为什么加红外线了。
龙哥始终认为,要近似准确的取得depth值,光靠一个角度的camera是不行的。

TOP

引用:
原帖由 ffcactus 于 2009-6-4 22:06 发表
你卖弄这些名词啊, 技术啊有个鸟用?
YY就是YY, 始终是对着空气在装腔作势。以为确定几个坐标就能解决问题, 真是顽固不化。
我的话题一直是围绕着楼主指出需要讨论的话题,并没有偏出任何讨论范围,你如果不信,可以去看看首页的内容。(1,单个camera; 2,获取depth info)。
有些人不学无术,装腔作势,一会而把话题扯到motion capture,一会儿把话题扯到AI,但是连基本概念都不懂,就来给人搞科普教育,还充内行人。
龙哥是个100%的外行人,但看到你这们这种混混滥竽充数,把好好一个帖子搞得乌烟瘴气,就是不爽!
你自己看不懂就说别人卖弄名词,技术,哈哈,龙哥自认说出来的都是外行话,真要在这里讨论算法,我怀疑你连一个公式都看不懂。

你如果能解决问题,那提你的解决方案。
不过我的疑问是,你要解决的究竟是natal的问题,还是你自己学识问题呢?
一个自称理科生连基本的向量概念都不知道,omg,简直是不可思议的事情。

TOP

引用:
原帖由 laarcenciel 于 2009-6-2 13:06 发表
RT。
微软这次demo,所演示的都是computer vision过去5-10年现成的,已经成型的技术,实现起来不会存在问题。不过demo过程中会有一些概念的成分,比如伸手插轮胎等,一个摄像头(没看清,不确定是不是有第二个,有就没有问题)难以扑捉深度信息(depth information)值得商榷。

欢迎其他懂行的同学一起来讨论一下。
这是楼主的原话,我不知道ff先生从哪里研究出楼主帖子的主旨是什么?
BD先生和你一样不学无术,瞎扯胡来,混淆概念,我觉得就是不对,所以给他好好普及一下基本知识。
龙哥从来没说自己专业,而且一直说自己是外行,恕我眼拙,我看不出我讨论的内容有任何专业的地方。
还说我谈内核?OMG,我这个文科生水平就能讨论core mechanics,混IBM和MS研究院的可以集体失业了。
今天我在同一个人身上碰到太多不可思议的事情,你真的是上过正式大学的理科生吗?
我们国家的教育改革难道失败成这样,真的,我都有点绝望...

TOP

 16 12
发新话题
     
官方公众号及微博