Board logo

标题: [新闻] 西川善司:PS4 Pro的定制GPU结合了北极星和VEGA的部分技术 [打印本页]

作者: chenzj    时间: 2016-11-6 18:58     标题: 西川善司:PS4 Pro的定制GPU结合了北极星和VEGA的部分技术

今年10月下旬,身为企业经营者和科技记者双重身份的西川善司参加了索尼互动娱乐(SIE)面向日本国内游戏企业经营者的技术报告会,马克塞尔尼与伊藤雅康两人主持报告会。报告会上有一部分内容是此前西田宗千佳在采访时问到的,还有一部分硬件架构上的问题,揭晓如下:

Polaris世代架构GPU特有的节能机能,(Polaris主打的节能机能分别是「Adaptive Voltage & Frequency Scaling」和「Multi-Bit Flip-Flop」,前者是根据芯片不同的体质自动调整电压和频率,相比以往电压频率控制来说更加灵活;后者涉及笔者并不谙熟的电路术语,恕难翻译其原理,但最终的效果是节省电路面积和控制功耗)

改进版Lossless Delta Color Compression,可以翻译成“无损三角色压缩技术”,运用这种技术,可以将贴图材质中的色彩数据以压缩格式写入和读取,在渲染时交由GPU解压,从而最大限度地节省显存带宽,或者说提高实效显存带宽。根据AMD的介绍,LDCC可以使得实效显存带宽平均提高40%,PS4 Pro的理论显存带宽是218GB/s,在无损三角色压缩技术的加持下,实效相当于305GB/s,相当于标准版PS4的1.73倍。

西川善司在此前的文章中误认为第一代“无损三角色压缩技术”已经在PS4的GPU上装备,索尼在前不久要求西川订正:PS4标准版的GPU没有装备无损三角色压缩技术。

Primitive Discard Accelerator 字面可翻译成”原始丢弃加速器“,是一种将大小、位置不足以显示在画面上的多边形排除在渲染管线之外的节省渲染资源的技术,跟以往的同类技术相比,该技术可将某些由于方位、距离等原因,在显示屏上大小不足一个像素的多边形排除出渲染管线,集中有限的渲染资源渲染可见多边形。

对16bit数据处理的改进:在记录器上以原生方式处理16位浮点和16位整数运算;在同时完成两个16位数据的处理之时,还可以将两个数据记录在32位的记录器上。

PS4 Pro的定制GPU从VEGA架构(由于VEGA还没上市,马克在讲座上表述成“Polaris之后的架构”上采纳的部分例子:

真正的倍速半精度浮点运算

PS4 GPU的浮点性能是 单精度4.2TFLOPS 半精度8.4TFLOPS 考虑到法线矢量、像素色值这些数据是可以用半精度来处理,加上前文所说的16bit数据处理改进,如果开发者充分运用,可以大大提升游戏表现

Work Distributor
当大量多边形数据有待处理时,进行高效率的分配调节,提高处理效率。

在下文科生,翻译倘若有不周之处,还请海涵。
西川善司说下集讲PS4 Pro实现“拟似4K渲染”的窍门
作者: 松鼠X    时间: 2016-11-6 19:00

反正被老黄儿子秒的货
作者: chenzj    时间: 2016-11-6 19:02     标题: 回复 2# 的帖子

你说switch?
作者: 松鼠X    时间: 2016-11-6 19:14

引用:
原帖由 chenzj 于 2016-11-6 19:02 发表
你说switch?

作者: samusialan    时间: 2016-11-6 20:10

色压缩技术大家都是夸大来说的,我记得之前有测试(单色?)N卡第四代也只是50%多的提升,现在看看大部分游戏实际用估计连20%都不到,根本到不了NV说的40%,毕竟越复杂越用不了;fury不知道是A卡第几代技术,测试是10%左右;这里也说这代达到了40%,先按N卡的第四代技术水平来看待吧
另外半精度这块,查了下移动端的数据,3dmark一类的测试软件大概占比是20%~25%这样子,移动端单机游戏大部分占比是50%~60%这样子,也就是说浮点提升应该在11%~43%之间,考虑到移动端的3dmark更接近桌面游戏的效果,感觉还是低一点的值更靠谱
总的来说,比480强还是能确定的,但吹嘘的部分还是量力而行比较好
作者: asdqwe    时间: 2016-11-6 20:46

posted by wap, platform: Chrome
有点powervr2的味道
作者: hourousha    时间: 2016-11-6 21:07

呃……建议文中专业名词还是别翻译了。
作者: EpilogueSKM    时间: 2016-11-6 21:12

到时候出来和480比下就知道到底谁强了,现在反正吹牛逼不要钱,一个半精度这种手游技术拿到桌面现在都能吹上天了。

[ 本帖最后由 EpilogueSKM 于 2016-11-6 21:57 编辑 ]
作者: 混血王子    时间: 2016-11-7 12:36

posted by wap, platform: Chrome
480单精度5.5啊,西川善死忽悠完任饭又来忽悠索饭了
作者: L.G.Y    时间: 2016-11-7 12:38

posted by wap, platform: iPhone
这种文章说真的,买游戏机谁会了解他的背后
作者: 塌方    时间: 2016-11-7 12:48

posted by wap, platform: 小米NOTE
讲真  这家伙比泥潭各路大神高不到哪去
作者: samusialan    时间: 2016-11-7 13:22

其实也不能说这种文章有错,只是这类文章一般都只说好的一部分而不说不好的那部分(另外NS那种本身全世界都是在猜也没啥可说的),普通人看了会造成误解而已
比如半精度,同等周期内确实能完成2倍单精度完成的量,但游戏不可能完全是由半精度的指令构成的,直接4.2*2=8.4就不对头了,按我上面自己查的比例算应该是4.7~6之间。而更准确的值,我觉得才是这类文章应该深究的问题,毕竟也算是业内,比我们更能接触到实际情况。另外还有一点是半精度指令的比列过高会不会导致游戏画面变差,这个也是普通人无法得知的,比如达到6tflops当量的时候,游戏画面是不是就是普通手游那种程度了,这种才是应该告诉大家的,否则还不如直接不说,一句话“有黑科技”更不会造成误解
作者: bsseven    时间: 2016-11-7 13:32

这文章也就是告诉大家理论数值,但是没人能100%的发挥出性能,还是结合开发商的功力
作者: u571    时间: 2016-11-7 14:07

posted by wap, platform: Chrome
桌面游戏有几个会用FP16?现代游戏无论是PBR还是细分曲面都是FP32,用FP16大概是想自己游戏死的更快点,233
作者: Nemo_theCaptain    时间: 2016-11-7 21:03

看到有人问NV,结果翻出来这个

GeForce GTX 1080, on the other hand, is not faster at FP16. In fact it’s downright slow. For their consumer cards, NVIDIA has severely limited FP16 CUDA performance. GTX 1080’s FP16 instruction rate is 1/128th its FP32 instruction rate, or after you factor in vec2 packing, the resulting theoretical performance (in FLOPs) is 1/64th the FP32 rate, or about 138 GFLOPs.

http://www.anandtech.com/show/10 ... rs-edition-review/5

另外那个什么螳螂赛车的开发者自己说了,Pro如果用非原生的棋盘渲染,在静态表现上会非常接近原生4K,但是动起来会有Banding问题,跟DF的评测一致

[ 本帖最后由 Nemo_theCaptain 于 2016-11-7 21:06 编辑 ]
作者: EpilogueSKM    时间: 2016-11-8 00:19

引用:
原帖由 Nemo_theCaptain 于 2016-11-7 21:03 发表
看到有人问NV,结果翻出来这个

GeForce GTX 1080, on the other hand, is not faster at FP16. In fact it’s downright slow. For their consumer cards, NVIDIA has severely limited FP16 CUDA performance. G ...
老黄1080支持原生fp16,但是不知道为何驱动限制的很厉害,还不如maxwell的模拟fp16,只能说现阶段,所谓的fp16在3a游戏上没啥卵用。
作者: cuda    时间: 2016-11-8 00:44

posted by wap, platform: 红米Note2
引用:
原帖由 @EpilogueSKM  于 2016-11-8 00:19 发表
老黄1080支持原生fp16,但是不知道为何驱动限制的很厉害,还不如maxwell的模拟fp16,只能说现阶段,所谓的fp16在3a游戏上没啥卵用。
gp102/gp104阉掉了2x fp16换上了4x int8
用来跑机器学习
故意来这么一刀肯定是要等volta出来再坑一笔
作者: u571    时间: 2016-11-8 11:20

posted by wap, platform: Chrome
引用:
原帖由 @cuda  于 2016-11-8 00:44 发表
gp102/gp104阉掉了2x fp16换上了4x int8
用来跑机器学习
故意来这么一刀肯定是要等volta出来再坑一笔
因为除了GP100以外都没有源生FP16计算单元,只能靠软件模拟。

桌面民用环境下FP16几乎就没什么鸟用,在这上面浪费晶体管并不值得。

另外int8正确的说在深度学习里面是跑inference,并不是训练。现在老黄的构想是民用显卡是以inference为主,数据中心级别计算卡以训练(training)为主。所以未来Volta民用显卡应该也不可能会有FP16

本帖最后由 u571 于 2016-11-8 11:31 通过手机版编辑




欢迎光临 TGFC Lifestyle (http://bbs.tgfcer.com/) Powered by Discuz! 6.0.0