» 您尚未登录:请 登录 | 注册 | 标签 | 帮助 | 小黑屋 |


发新话题
打印

[新闻] NGP 又再吹牛 ?!!【转载】 PS3用RSX和 NGP 的 SGX543MP4+单精度浮点性能比较

房价能泡沫100年,索尼的泡沫才吹个1年你们就这么不淡定

任青们,显然这个是索爱们的陷阱


TOP

posted by wap, platform: UC

真是蛋疼得不行,游戏机游戏机,说白了就是游戏效果决定了这游戏机,现在专业网站都实际测试过游戏效果了,楼主别当众人皆醉你独醒。



TOP

引用:
原帖由 hourousha 于 2011-2-4 01:34 发表

喷了,你给出的链接只是说明在alpha test时early-z会失效罢了(大多数正常情况不会失效)。这和你说的‘G70的HSR是历史笑话’‘fps会降到1/7’之类的逻辑联系在哪?

要说起来,你不如去关心PVR中你引以为豪的TB ...
不止, 至少在这些情况下也会失效(fps降至1/10~30)
-use kill/clip in pixelshader
-change compare func
-modify depth
好吧, 你要说这也算是完整的HSR我也没办法
那G80的官方文档和Nvidia GPU Programming Guide还真是写心酸的

USSE2的TBDR效能已经比USSE好了一倍(16z:8z)
一样是MBX, Sega的Aurora(2005产品)就有专门优化透明/不完整三角形
当年PowerVR2代, Dreamcast也是alpha test with HW front, 效能比同时脉的电脑版快一倍
难保SGX543MP4+不会有硬件加速alpha test, 就算没有, 也有64z, 即是Galaxy S的八倍
200MHz的Galaxy S(SGX540)比起240MHz的Tegra2 GPU效能差距多少?
就算不是N粉也可以参考Nvidia今年1月26日发出的宣传PDF, 说是110~150%, 实际约110~125%
然後Nvidia声称Tegra2的GPU效能是低阶G80(Tegra1是低阶Geforce6)
要喷, 请连NV一起喷, 好歹SGX543MP4+的同时脉效能是这"低阶G80"的八倍以上

[ 本帖最后由 JimmyC 于 2011-2-4 15:36 编辑 ]


TOP

sony什么时侯说过psp2性能和ps3一样?
反索饭造谣还真是张嘴就来

TOP

引用:
原帖由 JimmyC 于 2011-2-4 14:30 发表
不至, 至少在这些情况下也会失效(fps降至1/10~30)
-use kill/clip in pixelshader
-change compare func
-modify depth
好吧, 你要说这也算是完整的HSR我也没办法
那G80的官方文档和Nvidia GPU Programming Guide还真是写心酸的

USSE2的TBDR效能已经比USSE好了一倍(16z:8z)
一样是MBX, Sega的Aurora(2008产品)就有专门优化透明/不完整三角形
当年PowerVR2代, Dreamcast也是alpha test with HW front, 效能比同时脉的电脑版快一倍
难保SGX543MP4+不会有硬件加速alpha test, 就算没有, 也有64z, 即是Galaxy S的八倍
200MHz的Galaxy S(SGX540)比起240MHz的Tegra2 GPU效能差距多少?
就算不是N粉也可以参考Nvidia今年1月26日发出的宣传PDF, 说是110~150%, 实际约110~125%
然後Nvidia声称Tegra2的GPU效能是低阶G80(Tegra1是低阶Geforce6)
要喷, 请连NV一起喷, 好歹SGX543MP4+的同时脉效能是这"低阶G80"的八倍以上
1:请给出fps降至1/10至1/30的出处,说起来你这个结论就很神,降至1/10的原始参照物在哪里?前提条件是什么?仅仅是一个alpha test时HSR失效就会让fps降到1/10,那岂不是说alpha test占了总渲染成本的90%以上且alpha test的overdraw要不小于10不成?这是哪来的神奇程序?至于1/30,我的天……

2:顺便指出你给出的那三个条件,条件1上一个帖子里提了对于SGX的TBDR同样失效,看我给你那个Insider FAQ里,甚至提到了Alpha test/pixel shader discard性能甚至比alpha blend性能还要糟糕,所以建议使用alpha=0的alpha blend 来代替alpha test/pixel shader discard;条件3我在37楼就提了请仔细看贴,这种情况失效也是正常的,就和alpha blend时HSR失效一个性质,因为这时需要运行fragment shader(要不怎么输出深度),自然不可能early-z(别忘了early-z是要在运行fragment shader前把fragment给cull掉)了,这种情况TBDR自然也不能幸免。所以我说你还是先替PVR心酸吧。
一个功能有限制很正常,关键得看你怎么应用,能不能规避限制。你非要就着限制来使用,那是自找不痛快。至少G70在处理solid object时没什么问题(测试结果在那摆着),这也是early-z最常应用的范围。因此RSX的HSR至少是‘多数情况下可用的’,结果被你一句话就说成了HSR的笑话,那请问同样不支持alpha test的SGX是不是也是HSR的笑话?

3:优化透明三角形么?还是看我给你的那个Insider FAQ,里面提到了,我再给你引用一下
引用:
For sprites with transparent areas, create polygons that are optimal for the visible area and exclude fragments that are completely transparent. If an application was to render a simple triangular shaped tree texture on a quad polygon, there would be large, empty areas that would need to be blended. A better approach in this situation would be to use a triangle that tightly fits the shape of the texture. By doing so, most of the empty area that would have to be blended when using a quad to render the tree sprite can be removed, which means there are fewer fragments to blend. Geometry used to tightly fit sprites in a given application should be kept as simple as possible while eliminating as many unwanted fragments as possible. Finding the balance between geometric complexity and the empty space that will be removed by using more complex geometry is a balance that is very application and platform specific. A tool such as the one described here: http://www.humus.name/index.php?page=Cool&ID=8 can be used to generate the geometry required.

For further optimisation, when rendering sprites with partially transparent areas, break each object down into an area that can be rendered as an opaque sprite and a second area of partially transparency that can be blended. By taking this approach, the number of fragments that need to be blended for each sprite can be significantly reduced, which allows the HSR process to provide a "super" fill rate. In order to maintain sprite ordering, use of the depth buffer will be required - each sprite will need a unique offset to avoid artefacts. Generating the areas for this technique can be done with a similar tool to that mentioned above, but this time looking for opaque pixels instead of completely transparent. As stated previously, the opaque objects should be drawn first followed by the blended objects as this will allow the blended objects to gain the most benefit possible from the hardware's HSR process.
是让开发者事先把blend的几何体给分割成不透明/半透明两大集合,尽量减小blend处理量,这就是你说的硬件优化透明/镂空三角形吗?喷了……
4:不是要和RSX比吗?怎么又转进到Tegra2去了?别跑题别跑题,233……

[ 本帖最后由 hourousha 于 2011-2-4 16:05 编辑 ]

TOP

引用:
原帖由 hourousha 于 2011-2-4 15:33 发表

1:请给出fps降至1/10至1/30的出处,说起来你这个结论就很神,降至1/10的原始参照物在哪里?前提条件是什么?仅仅是一个alpha test时HSR失效就会让fps降到1/10,那岂不是说alpha test占了总渲染成本的90%以上且alp ...
early-z exists since gf3, like mentioned before. it is disabled if you
-enable alpha test
-use kill/clip in pixelshader
-change compare func

in order to get speed again on G70, you need to work around your alpha-testing.
this is critical, otherwise you pretty much run without optimization and then you're easily 10 to 30 times slower.

你自己搜索一下随便一个Dreamcast模拟器的说明
DC用的PowerVR2的指令分ZWrite和Alpha ZWrite等
後者可大幅强化fps数倍,
这硬体加速指令可是DC版的PowerVR2才有, 显卡的Neon250没有
Sega街机用的MBX也有这个指令, 但iphone2G/3G用的就没有
证明Imgtec一早就有解决方法但没全部采用
在还没清楚SGX543MP4+的规格前就喷这点会不会太早?

PowerVR Insider那边的资料别说SGX543MP4+, 连SGX543的也没有, 也没有家用机芯片的资料
最近期的就是2007年发表的SGX540的开发建议
比起USSE, USSE2每管线shader/TBDR/隐面处理性能增加一倍, 8z>16z, 1D>2D, Vec2>Vec4, 同时支援更多硬体加速
难为你可以面不红气不喘地用2005年USSE的资料来喷2009年的USSE2

跑什麽题?
RSX:G70(7800)阉割版(8:24:24:8)
时脉比SGX543MP4+高20%, 效能高10~25%的240MHz Tegra2:低阶G80, 最低阶的G80为8300GS(8:8:4)
前一点不敢喷,
说到同时脉效能为Tegra2八倍以上的SGX543MP4+效能接近8600GT(32:16:8)/RSX就要喷了
可笑的是连SGX543MP4+时脉多少还未知道
当2011Q1的OMAP4440(45nm)用的已是380MHz
还要拿着200MHz的数据来喷

TOP

技术大拿们能解释下怎么用7800阉割版做出战神3 GT5 KZ3 这些画面吗
纯为这些技术参数来喷有什么意义

TOP

引用:
原帖由 GTFC 于 2011-2-4 17:09 发表
技术大拿们能解释下怎么用7800阉割版做出战神3 GT5 KZ3 这些画面吗
纯为这些技术参数来喷有什么意义
简单而言
1.低阶API
2.对同一GPU的不断优化
3.电脑上有多少游戏的最低要求是用7800?, 游戏设计者一定要照顾低阶硬件玩家

John Carmack在推特上用這形容NGP的性能
Low level APIs will allow the Sony NGP to perform about a generation beyond smart phones with comparable specs.

即大约手机上Tegra4.5的程度, 约2014年初, NGP的性能优势应能维持两年半

TOP

引用:
原帖由 JimmyC 于 2011-2-4 16:39 发表
early-z exists since gf3, like mentioned before. it is disabled if you
-enable alpha test
-use kill/clip in pixelshader
-change compare func
in order to get speed again on G70, you need to work around your alpha-testing.
this is critical, otherwise you pretty much run without optimization and then you're easily 10 to 30 times slower.
你自己搜索一下随便一个Dreamcast模拟器的说明
DC用的PowerVR2的指令分ZWrite和Alpha ZWrite等
後者可大幅强化fps数倍,
这硬体加速指令可是DC版的PowerVR2才有, 显卡的Neon250没有
Sega街机用的MBX也有这个指令, 但iphone2G/3G用的就没有
证明Imgtec一早就有解决方法但没全部采用
在还没清楚SGX543MP4+的规格前就喷这点会不会太早?
PowerVR Insider那边的资料别说SGX543MP4+, 连SGX543的也没有, 也没有家用机芯片的资料
最近期的就是2007年发表的SGX540的开发建议
比起USSE, USSE2每管线shader/TBDR/隐面处理性能增加一倍, 8z>16z, 1D>2D, Vec2>Vec4, 同时支援更多硬体加速
难为你可以面不红气不喘地用2005年USSE的资料来喷2009年的USSE2
跑什麽题?
RSX:G70(7800)阉割版(8:24:24:8)
时脉比SGX543MP4+高20%, 效能高10~25%的240MHz Tegra2:低阶G80, 最低阶的G80为8300GS(8:8:4)
前一点不敢喷,
说到同时脉效能为Tegra2八倍以上的SGX543MP4+效能接近8600GT(32:16:8)/RSX就要喷了
可笑的是连SGX543MP4+时脉多少还未知道
当2011Q1的OMAP4440(45nm)用的已是380MHz
还要拿着200MHz的数据来喷
敢情1/10-1/30是这么来的,彻底喷了,那人在论坛上红口白牙地一说,一无数据支持,二无环境说明,三无法证明此问题是由HSR失效导致,到了你这里就当真理宣传了,你真行……
说RSX的HSR是笑话是假HSR的是你不是我;说HSR开AA只剩1/7性能的是你不是我;后来转进到G70的HSR功能有限制的是你不是我;从论坛一无数据支持发言得出1/10-1/30的依然是你不是我;有意无视SGX的情况而搬出更早的某MBX甚至10多年前的PVR CLX2来给SGX543MP4当最后挡箭牌的是你不是我;说SGX543MP4+@200MHz的4000MP/s不是等效数字的还是你不是我,扯出Tegra2与什么频率200M、380M、之类的的依然是你不是我……
搞清楚谁在胡喷OK?

从我回的第一个帖子开始就在说同一个问题——麻烦你解释清楚怎么RSX的HSR性能只有1/7,怎么就只有1/10-1/30的fps,怎么就是笑话和假HSR——按照你后来的‘不支持Alpha test的HSR’这个标准,已推出的采用TBDR的产品,又有几款在HSR方面不是笑话,有几款是‘真HSR’?

[ 本帖最后由 hourousha 于 2011-2-4 19:03 编辑 ]

TOP

ngp能领先手机2年半?的确啊因为ngp2年半后上市,所以yy的东西总是无比强大,2014年初,ngp机能如果能领先最高端手机,我死,如果没有领先楼上死,楼上的2b敢赌命不?2014年挖坟来

TOP

引用:
原帖由 hourousha 于 2011-2-4 18:40 发表

敢情1/10-1/30是这么来的,彻底喷了,那人在论坛上红口白牙地一说,一无数据支持,二无环境说明,三无法证明此问题是由HSR失效导致,到了你这里就当真理宣传了,你真行……
说RSX的HSR是笑话是假HSR的是你不是我; ...
Nvidia的官方G70 Nvidia GPU Programming Guide HSR的部份说明
http://developer.download.nvidia ... ogramming_Guide.pdf

Early-z optimization (sometimes called “z-cull”) improves performance by avoiding the rendering of occluded surfaces. If the occluded surfaces have expensive shaders applied to them, z-cull can save a large amount of computation time. To take advantage of z-cull, follow these guidelines:

􀂉 Don’t create triangles with holes in them (that is, avoid alpha test or texkill)
􀂉 Don’t modify depth (that is, allow the GPU to use the interpolated depth value)

Violating these rules can invalidate the data the GPU uses for early optimization, and can disable z-cull until the depth buffer is cleared again.

Nvidia的官方G80 Nvidia GPU Programming Guide HSR的部份说明
http://developer.download.nvidia ... mming_Guide_G80.pdf

NVIDIA GeForce 6 series and later GPUs can perform a coarse level Z and
Stencil culling. Thanks to this optimization large blocks of pixels will not be
scheduled for pixel shading if they are determined to be definitely occluded.
In addition, GeForce 8 series and later GPUs can also perform fine-grained Z
and Stencil culling, which allow the GPU to skip the shading of occluded pixels.
These hardware optimizations are automatically enabled when possible, so they
are mostly transparent to developers. However, it is good to know when they
cannot be enabled or when they can underperform to ensure that you are taking
advantage of them.

G70及之前的只能coarse level Z and Stencil culling
G80及以後的才能fine-grained Z and Stencil culling
Course-grained Z: Course Z, Hierarchical Z, Hi-Z, or ZCULL
Fine-grained Z: Fine Z, Early Z, Early Z Checking, Early Z Out
好吧, 这不是阉割,
fine-grained Z and Stencil culling是多馀的
skip the shading of occluded pixels其实是没有用的垃圾功能
没有这的G70已经是完整的HSR
没有这的G70才是真HSR
有这的G80反而是假HSR
我这样说没错吧?

1/7, 1/10-30都是别人在G70使用HSR实际编程的结果,
Nvidia自然不会说白慢多少, 但随便搜一下也有很多这方面的讨论
我放出讨论链结又被喷是搜回来的, 非官方不能作准
但我又不会写, 你怎样不自己写一点看看?

还有, MBX是五年前的产品
拿2005年USSE来喷2009年USSE2的不是你?

[ 本帖最后由 JimmyC 于 2011-2-4 21:20 编辑 ]

TOP

引用:
原帖由 qjw363924793 于 2011-2-4 18:45 发表
ngp能领先手机2年半?的确啊因为ngp2年半后上市,所以yy的东西总是无比强大,2014年初,ngp机能如果能领先最高端手机,我死,如果没有领先楼上死,楼上的2b敢赌命不?2014年挖坟来
我说的是实际游戏表现
id的头子说受惠於低阶API, NGP实际游戏表现比同规格手机好一代(一年)

NGP是4核A9
4核的Tegra3产品要明年(2012)Q3才上市
Nvidia官方说Tegra3 3D效能是Tegra2的三倍
Nvidia官方说时脉高出20%状态下Tegra2效能是SGX540的110~125%
Imgtec官方说SGX543的同时脉效能是SGX540的一倍
Imgtec官方说SGX543的多核心效率为95%

由此可得出当SGX540性能为1时
Tegra2约是1.1~1.25
Tegra3约是3.3~3.75
和SGX540同时脉的SGX543MP4+为7.6

即是说至少要2013年的Tegra4规格才有机会能超前SGX543MP4+
但id头子说NGP实际游戏表现比同规格手机好一代(一年)
即是说至少要2014年的Tegra5才能在游戏中真正超前
因此我才说是Tegra4.5代(2013年末)

要赌可以,
实际规格领先到2013年初, 之後打平甚至超前(基於id头子没说错的状况)
游戏表现领先到2014年初, 之後打平甚至超前(基於id头子没说错的状况)

[ 本帖最后由 JimmyC 于 2011-2-4 20:45 编辑 ]

TOP

引用:
原帖由 JimmyC 于 2011-2-4 20:21 发表
G70及之前的只能coarse level Z and Stencil culling
G80及以後的才能fine-grained Z and Stencil culling
Course-grained Z: Course Z, Hierarchical Z, Hi-Z, or ZCULL
Fine-grained Z: Fine Z, Early Z, Early Z Checking, Early Z Out
好吧, 这不是阉割,
fine-grained Z and Stencil culling是多馀的
skip the shading of occluded pixels其实是没有用的垃圾功能
没有这的G70已经是完整的HSR
没有这的G70才是真HSR
有这的G80反而是假HSR
我这样说没错吧?
喷了,你这逻辑能力真成问题,G70的early-z有限制,但不是假HSR,更不是笑话,很简单,有37楼给出的测试结果为证,比你在这红口白牙地给HSR的真假与否,笑话与否胡乱下定义要强的多。
至于你说G80是假HSR,我只能佩服你的脑仁儿了,呵呵……
引用:
1/7, 1/10-30都是别人在G70使用HSR实际编程的结果,
Nvidia自然不会说白慢多少, 但随便搜一下也有很多这方面的讨论
很简单呐,要是所有的物体渲染我都用alpha blending来做(这没什么不可以,对不透明物体把alpha设为255就成了),并且把overdraw给做到100左右,那几乎所有硬件都慢成龟,你信不信?你拿错误的使用情况当真理还振振有词?

一个基本的事实是,支持不支持HSR对速度的影响,完全看场景的overdraw来定。没有一个统一的情况,Imgtec给出的典型值还是2.5呢,那按这数值的话,完全不支持HSR的消耗也就是2.5倍左右。
实际情况还要复杂得多,因为无论G70还是SGX,都可以对部分情况使用HSR而部分不行,那么实际情况就是不能使用HSR的那部分会有性能差别,做一个简单假设,比如总渲染时间中,55%花在solid obj上,15%花在alpha test obj上,20%花在alphablend obj上,剩下10%花在post processing上。而alpha test obj的overdraw假设是5——这个数不算小了吧。
第一部分是可以HSR的,第三部分是肯定任何硬件都无法HSR的而第四部分没有HSR的必要,区别在于第二部分,有些硬件可以HSR有些不可以,这会造成多大差别?差别就是渲染alpha test obj这部分会有5倍的时间差距。这个看起来不小,但是和总时间加一起算,也就是0.55+0.15*5+0.2+0.1=1.6倍的时间差距。我不知道你能否看明白。总之由于没有任何一个硬件可以在所有渲染流程部分都实现HSR,而G70在solid obj也支持HSR,所以G70的HSR的受限部分所造成的性能影响比该部分obj的overdraw要明显来的小。
简而言之,在正确使用的前提下,是绝对不可能出现1/7甚至更大的差距的。说的更绝对一点,在G70上写出仅由于HSR的限制而产生超过3倍以上fps差距的实用程序(并非理论测试程序),就都是废程序。
引用:
我放出讨论链结又被喷是搜回来的, 非官方不能作准
但我又不会写, 你怎样不自己写一点看看?
还有, MBX是五年前的产品
拿2005年USSE来喷2009年USSE2的不是你?
前面写给你了。看得懂看不懂就随便了。我倒要问问你,我后面对比HSR提的都是SGX,你哪只眼睛看到我用USSE喷USSE2了?我举SGX的原因很简单,因为似乎没什么正常人会认为PVR系列的HSR是假HSR,那么SGX不支持alpha test下的HSR说明alpha test下的HSR功能不是正常人判定HSR真假的依据。明白了么?
至于引用透明物体优化那段,别说USSE2,到了USSE8也是一样的优化手段,本来透明物体渲染就和HSR无缘。至于shader depth output情况也是一样,这部分本来就和early-z、HSR的应用相矛盾。
别听风就是雨,选择性摘段网上的无责任留言就当真理还到处宣传。

TOP

引用:
原帖由 hourousha 于 2011-2-4 22:50 发表

喷了,你这逻辑能力真成问题,G70的early-z有限制,但不是假HSR,更不是笑话,很简单,有37楼给出的测试结果为证,比你在这红口白牙地给HSR的真假与否,笑话与否胡乱下定义要强的多。
至于你说G80是假HSR,我只能 ...
你先看一下Course-grained Z和Fine-grained Z的归类
Course-grained Z: Course Z, Hierarchical Z, Hi-Z, or ZCULL
Fine-grained Z: Fine Z, Early Z, Early Z Checking, Early Z Out
然後究竟G70有没有Fine-grained Z
根据Nvidia G80的官方PDF, 没有
fine-grained Z and Stencil culling要G80以後才支援
G70根本没有early z, 不是有限制, 是根本没有

NVIDIA GeForce 6 series and later GPUs can perform a coarse level Z and
Stencil culling. Thanks to this optimization large blocks of pixels will not be
scheduled for pixel shading if they are determined to be definitely occluded.
In addition, GeForce 8 series and later GPUs can also perform fine-grained Z
and Stencil culling, which allow the GPU to skip the shading of occluded pixels.

These hardware optimizations are automatically enabled when possible, so they
are mostly transparent to developers. However, it is good to know when they
cannot be enabled or when they can underperform to ensure that you are taking
advantage of them.

我不会编程, 你可以试一下, 我相信你懂的
引用:
证明有没有early-Z的方法, 就是要让z-cull失效. 方法很简单, 反转一下z test就可以了.
结果证明G8x几乎根本不受z-反转的影响, 而G70在测试反转后性能和完全没有occlusion一样.
37楼那个那个测试的结果怎样来, 过程中有没有什麽地方出错, 作假, 我没实际试过, 我不知道
或者是G70, G80的官方文档都写错了, 然後全世界都误会了, 然後你看透了

我看应该是G70和G80官方编程文档写错的机会最大, 哈哈

[ 本帖最后由 JimmyC 于 2011-2-4 23:40 编辑 ]

TOP

乃们还真能吵, 还吵得像模像样的. :D

Z-cull和early-z本来就不是一个咚咚. Z-cull是在raster里面的, 所谓coarse是因为它是逐tile做深度测试, 不是逐sample. 做逐sample深度测试的是ZROP, 所谓的fine-grained. ZROP要么在ps之前做深度测试, 要么在ps之后, 分别叫做early-z和late-z. N卡的ZROP不能同时early-z和late-z, 但A卡号称可以这样, 称为Re-Z技术. 然而, Re-Z从未被发现在A的驱动中开启过.

N的z-cull自从NV3x(5xxx系列)的时候就有了, A的Hi-Z也是R300时候有的. 不过NV3x的z-cull很悲催, 居然直接从z-buffer里面去读数据, 结果性能烂到不得不在驱动里面把z-cull永久关掉. NV4x(6xxx和7xxx系列)重新设计了, 使用片上缓存来存储深度的tile, 性能大幅提高. 所以RSX自然是z-cull和early-z都可以做的. 至于alpha test和texkill后的情况(这两个其实是同一样东西哦), z-cull是不会受影响的, 因为z-cull用的tile数据都是之前ZROP反馈的. 而ZROP是受影响的, 只能late-z.

至于tegra咩, 没啥好比的. 据传说是从NV4x的构架来设计的, 但是实际上差别太大了, 连register file和ROP都没有... :D :D

TOP

发新话题
     
官方公众号及微博