Board logo

标题: [新闻] XBOX720内存细节曝光 [打印本页]

作者: DVDRiP    时间: 2013-3-13 22:43     标题: XBOX720内存细节曝光

老地方更新了

Durango Memory System Overview
We have read multiples replies and discussions around Durango’s memory system throughout the internet, due to we would like to share this information with all of you. In this article we expose the different types of memories that Durango has and how this memories work together with the rest of the system.
The central elements of the Durango memory system are the north bridge and the GPU memory system. The memory system supports multiple clients (for example, the CPU and the GPU), coherent and non-coherent memory access, and two types of memory (DRAM and ESRAM).
Memory clientsThe following diagram shows you the Durango memory clients with the maximum available bandwidth in every path.

[attach]515408[/attach]


MemoryAs you can see on the right side of the diagram, the Durango console has:
DRAMThe maximum combined read and write bandwidth to DRAM is 68 GB/s (gigabytes per second). In other words, the sum of read and write bandwidth to DRAM cannot exceed 68 GB/s. You can realistically expect that about 80 – 85% of that bandwidth will be achievable (54.4 GB/s – 57.8 GB/s).
DRAM bandwidth is shared between the following components:
ESRAMThe maximum combined ESRAM read and write bandwidth is 102 GB/s. Having high bandwidth and lower latency makes ESRAM a really valuable memory resource for the GPU.
ESRAM bandwidth is shared between the following components:
Video encode/decode engine. System coherencyThere are two types of coherency in the Durango memory system:
The two CPU modules are fully coherent. The term fully coherent means that the CPUs do not need to explicitly flush in order for the latest copy of modified data to be available (except when using Write Combined access).
The rest of the Durango infrastructure (the GPU and I/O devices such as, Audio and the Kinect Sensor) is I/O coherent. The term I/O coherent means that those clients can access data in the CPU caches, but that their own caches cannot be probed.
When the CPU produces data, other system clients can choose to consume that data without any extra synchronization work from the CPU.
The total coherent bandwidth through the north bridge is limited to about 30 GB/s.
The CPU requests do not probe any other non-CPU clients, even if the clients have caches. (For example, the GPU has its own cache hierarchy, but the GPU is not probed by the CPU requests.) Therefore, I/O coherent clients must explicitly flush modified data for any latest-modified copy to become visible to the CPUs and to the other I/O coherent clients.
The GPU can perform both coherent and non-coherent memory access. Coherent read-bandwidth of the GPU is limited to 30 GB/s when there is a cache miss, and it’s limited to 10 – 15 GB/s when there is a hit. A GPU memory page attribute determines the coherency of memory access.
The CPUThe Durango console has two CPU modules, and each module has its own 2 MB L2 cache. Each module has four cores, and each of the four cores in each module also has its own 32 KB L1 cache.
When a local L2 miss occurs, the Durango console probes the adjacent L2 cache via the north bridge. Since there is no fast path between the two L2 caches, to avoid cache thrashing, it’s important that you maximize the sharing of data between cores in a module, and that you minimize the sharing between the two CPU modules.
Typical latencies for local and remote cache hits are shown in this table.
Remote L2 hitapproximately  100 cycles
Remote L1 hit
approximately  120 cycles
Local L1 Hit3 cycles for  64-bit values
5 cycles for 128-bit values
Local L2 Hit approximately 30  cycles

Each of the two CPU modules connects to the north bridge by a bus that can carry up to 20.8 GB/s in each direction.
From a program standpoint, normal x86 ordering applies to both reads and writes. Stores are strongly ordered (becoming visible in program order with no explicit memory barriers), and reads are out of order.
Keep in mind that if the CPU uses Write Combined memory writes, then a memory synchronization instruction (SFENCE) must follow to ensure that the writes are visible to the other client devices.
The GPUThe GPU can read at 170 GB/s and write at 102 GB/s through multiple combinations of its clients. Examples of GPU clients are the Color/Depth Blocks and the GPU L2 cache.
The GPU has a direct non-coherent connection to the DRAM memory controller and to ESRAM. The GPU also has a coherent read/write path to the CPU’s L2 caches and to DRAM.
For each read and write request from the GPU, the request uses one path depending on whether the accessed resource is located in “coherent” or “non-coherent” memory.
Some GPU functions share a lower-bandwidth (25.6 GB/s), bidirectional read/write path. Those GPU functions include:
As the GPU is I/O coherent, data in the GPU caches must be flushed before that data is visible to other components of the system.
The available bandwidth and requirements of other memory clients limit the total read and write bandwidth of the GPU.
This table shows an example of the maximum memory-bandwidths that the GPU can attain with different types of memory transfers.

Source memoryDestination memoryMaximum read bandwidth (GB/s)Maximum write bandwidth (GB/s)Maximum total bandwidth (GB/s)
ESRAMESRAM51.251.2102.4
ESRAMDRAM68.2*68.2136.4
DRAMESRAM68.268.2*136.4
DRAMDRAM34.134.168.2

Although ESRAM has 102.4 GB/s of bandwidth available, in a transfer case, the DRAM bandwidth limits the speed of the transfer.
ESRAM-to-DRAM and DRAM-to-ESRAM scenarios are symmetrical.
Move enginesThe Durango console has 25.6 GB/s of read and 25.6 GB/s of write bandwidth shared between:
The display scan out consumes a maximum of 3.9 GB/s of read bandwidth (multiply 3 display planes × 4 bytes per pixel × HDMI limit of 300 megapixels per second), and display write-back consumes a maximum of 1.1 GB/s of write bandwidth (multiply 30 bits per pixel × 300 megapixels per second).
You may wonder what happens when the GPU is busy copying data and a move engine is told to copy data from one type of memory to another. In this situation, the memory system of the GPU shares bandwidth fairly between source and destination clients. The maximum bandwidth can be calculated by using the peak-bandwidth diagram at the start of this article.


Durango Memory System Example

This whole system example demonstrates what the memory bandwidth might look like when the whole system is working under a typical load (this numbers are only predictions not measured numbers)
This example assumes what’s expected to be a typical CPU load and a maximum GPU load:

[attach]515336[/attach]


This diagram shows our prediction of the typical bandwidth for the north bridge clients and the typical available bandwidth for the GPU clients (which are shown in blue).
Let’s start by describing the CPU. Although each CPU module can request up to 20.8 GB/s of bandwidth for read and for write, the typical bandwidth you should expect for the CPU is 4 GB/s per CPU module per direction—about 16 GB/s altogether.
You can expect typical bandwidth to be around 3 GB/s per direction for the: audio, HDD, Camera, and USBs.
The Kinect Sensor is the main consumer of the bandwidth. For example, peak bandwidth to and from the HDD is only about 50 MB/s, so the HDD cannot be seen as a major bandwidth consumer.
Because the GPU is usually pushed to the maximum, you can expect typical coherent bandwidth to be about 25 GB/s. However, this amount depends on how many resources are made snoopable.
Currently, we are not able tell exactly how much of that access will be hitting the CPU’s caches and how much of the access much will go to DRAM. So as we said above, this figure is highly speculative at the moment.
The estimated 25 GB/s of bandwidth for coherent memory access does not account for the non-coherent memory access of the GPU.
The coherent bandwidth that can flow through the north bridge is a limited at 30 GB/s. Under typical conditions, this limit shouldn’t cause you problems. But during a high load on the coherent memory traffic, the north bridge might become saturated. Once the north bridge becomes saturated, you may notice increased latencies for memory access.
CPU memory access that is Write Combined does not fall under this limitation nor does GPU memory access that is non-coherent.
Finally let’s compute how much bandwidth is left for the non-coherent GPU access to consume. Let’s assume that:
This leaves 42 GB/s of DRAM bandwidth available to the GPU clients.

[ 本帖最后由 DVDRiP 于 2013-3-14 01:10 编辑 ]
作者: KoeiSangokushi    时间: 2013-3-13 23:07

低性能确定?!
作者: DVDRiP    时间: 2013-3-13 23:12

引用:
原帖由 KoeiSangokushi 于 2013-3-13 23:07 发表
低性能确定?!
我看这台xbox干脆叫kinectbox算了
作者: 首斩破沙罗    时间: 2013-3-13 23:13

看不懂,技术牛们来解读一下
作者: KoeiSangokushi    时间: 2013-3-13 23:13

引用:
原帖由 DVDRiP 于 2013-3-13 23:12 发表

我看这台xbox干脆叫kinectbox算了
XBOX SURFACE吧
DATA MOVE ENGINE几乎没有作用,微软亏大发了
作者: akilla    时间: 2013-3-13 23:15

弱爆了,要延期?
作者: KoeiSangokushi    时间: 2013-3-13 23:17

引用:
原帖由 首斩破沙罗 于 2013-3-13 23:13 发表
看不懂,技术牛们来解读一下
主内存带宽只有PS4的38.6%
微软花费大力气苦心研究的DATA MOVE ENGINE几乎完全没有效果
作者: DVDRiP    时间: 2013-3-13 23:20

引用:
原帖由 akilla 于 2013-3-13 23:15 发表
弱爆了,要延期?
这破烂还延期?E3开完直接发售都行
作者: KoeiSangokushi    时间: 2013-3-13 23:23

引用:
原帖由 DVDRiP 于 2013-3-13 23:20 发表

这破烂还延期?E3开完直接发售都行
如果敢卖250美金直接无缝接上XBOX360还是有戏的:D
作者: 讴歌123    时间: 2013-3-13 23:23

引用:
原帖由 KoeiSangokushi 于 2013-3-13 23:13 发表

XBOX SURFACE吧
DATA MOVE ENGINE几乎没有作用,微软亏大发了
因为这个时候DME是闲置的啊,全部满载的时候是这张图:
[attach]515362[/attach]
作者: 大头木    时间: 2013-3-13 23:24

posted by wap, platform: Huawei (C8950D)

低宽带,低转速,功耗100w以内,机箱应该比wiiu差不多大,为占领客厅打下基础。

本帖最后由 大头木 于 2013-3-13 23:25 通过手机版编辑
作者: KoeiSangokushi    时间: 2013-3-13 23:25

引用:
原帖由 讴歌123 于 2013-3-13 23:23 发表

因为这个时候DME是闲置的啊,全部满载的时候是这张图:
515362
楼主太坏了
作者: 987654s    时间: 2013-3-13 23:25

呵呵,抢任天堂饭碗。。
作者: KoeiSangokushi    时间: 2013-3-13 23:26

引用:
原帖由 讴歌123 于 2013-3-13 23:23 发表

因为这个时候DME是闲置的啊,全部满载的时候是这张图:
515362
对了为什么有4个MOVE ENGINE?
作者: KoeiSangokushi    时间: 2013-3-13 23:29

从10楼的图来看,微软的这个ESRAM和DATA MOVE ENGINE非常牛逼
就算以后有游戏开发商抱怨PS4的内存延迟太大不给力我也不会感到稀奇
作者: 讴歌123    时间: 2013-3-13 23:32

引用:
原帖由 KoeiSangokushi 于 2013-3-13 23:26 发表

对了为什么有4个MOVE ENGINE?
http://www.vgleaks.com/world-exclusive-durangos-move-engines/

vgleaks一开始就给得是4个DME吧……
[attach]515363[/attach]
作者: west2046    时间: 2013-3-13 23:34

引用:
原帖由 KoeiSangokushi 于 2013-3-13 23:29 发表
从10楼的图来看,微软的这个ESRAM和DATA MOVE ENGINE非常牛逼
就算以后有游戏开发商抱怨PS4的内存延迟太大不给力我也不会感到稀奇
10页后说出来才有说服力

内存不是问题,可惜GPU还是差30%
作者: DVDRiP    时间: 2013-3-13 23:35

引用:
原帖由 KoeiSangokushi 于 2013-3-13 23:25 发表

楼主太坏了
你居然不看链接
作者: KoeiSangokushi    时间: 2013-3-13 23:36

引用:
原帖由 west2046 于 2013-3-13 23:34 发表

10页后说出来才有说服力

内存不是问题,可惜GPU还是差30%
没准微软看准了次世代主机的瓶颈在于内存系统的延迟
作者: chain416    时间: 2013-3-13 23:37

posted by wap, platform: iPad

还是觉得集成kinect有点不爽,本来单买pc也能用。
作者: west2046    时间: 2013-3-13 23:38

引用:
原帖由 讴歌123 于 2013-3-13 23:32 发表

http://www.vgleaks.com/world-exclusive-durangos-move-engines/

vgleaks一开始就给得是4个DME吧……
515363
肯奶2的应用,还有游戏以外的应用?
作者: 讴歌123    时间: 2013-3-13 23:40

说实话我到现在都不懂DME到底是什么?算硬件模块还是软件模块?
作者: west2046    时间: 2013-3-13 23:40

引用:
原帖由 KoeiSangokushi 于 2013-3-13 23:36 发表

没准微软看准了次世代主机的瓶颈在于内存系统的延迟
这帖的爆料可能是索尼升级为8G内存其中一个重要原因
作者: 來福時代    时间: 2013-3-13 23:41

坐看技术大湿们详尽分析 :D
作者: KoeiSangokushi    时间: 2013-3-13 23:46

引用:
原帖由 讴歌123 于 2013-3-13 23:40 发表
说实话我到现在都不懂DME到底是什么?算硬件模块还是软件模块?
应该还是算硬件模块
看起来是主内存和ESRAM之间的快速桥接
或许也负责一些CPU和GPU的缓冲RAM的快速转移

[ 本帖最后由 KoeiSangokushi 于 2013-3-13 23:48 编辑 ]
作者: KoeiSangokushi    时间: 2013-3-13 23:50

引用:
原帖由 west2046 于 2013-3-13 23:40 发表

这帖的爆料可能是索尼升级为8G内存其中一个重要原因
我不觉得,我认为索尼是知道相关配置的
作者: west2046    时间: 2013-3-14 00:21

引用:
原帖由 KoeiSangokushi 于 2013-3-13 23:50 发表

我不觉得,我认为索尼是知道相关配置的
8G的GDDR vs 8G的GDDR3

4G的GDDR vs 8G的GDDR3


作者: 你老闆    时间: 2013-3-14 00:43

引用:
原帖由 DVDRiP 于 2013-3-13 23:35 发表

你居然不看链接
把兩張圖一起貼到主樓吧
好吧雖然居然會有人對那0GB/s的DME沒疑問很奇怪,怎麼看也不是遊戲中的情況吧...
作者: 神话传说完美版    时间: 2013-3-14 00:57

管它那么多干嘛,只要性能是XBOX360的3~5倍,3倍已经相当NB了,:D 卖299美圆 啃奶2+720套装,或199美圆,720主机我就买,次世代基本没索尼什么事了,可以回家继续模拟地球了
作者: DVDRiP    时间: 2013-3-14 01:03

LS反串辛苦了
作者: 倍舒爽    时间: 2013-3-14 01:16

引用:
原帖由 DVDRiP 于 2013-3-13 23:35 发表

你居然不看链接
This example assumes what’s expected to be a typical CPU load and a maximum GPU load:

这实在让人抓头,gpu全负载下dme居然0负载?
gpu和北桥的带宽才那么点?
pcie3.0都32g/s了?
那apu的优势呢?
作者: 你老闆    时间: 2013-3-14 01:33

說不定vgleaks在說明如果沒DME的話他們認為的720的運行速率
作者: shiningfire    时间: 2013-3-14 01:51

posted by wap, platform: iPhone 3GS/4/4S

洗洗睡吧。明天起来看鬼佬们的讨论结果。
作者: 你老闆    时间: 2013-3-14 01:59

鬼佬們都在說跟他們這些天一直討論的沒分別(就是沒新料),不用期待啥
作者: shiningfire    时间: 2013-3-14 02:04

posted by wap, platform: iPhone 3GS/4/4S

喷了。2333。
作者: AngryMulch    时间: 2013-3-14 02:51

引用:
原帖由 讴歌123 于 2013-3-13 23:40 发表
说实话我到现在都不懂DME到底是什么?算硬件模块还是软件模块?
把它想像成sub processor就可以了......
作者: akilla    时间: 2013-3-14 07:24

move engine不就一DMA engine么?有啥好神的
作者: west2046    时间: 2013-3-14 07:37

上次讨论的帖子

http://club.tgfcer.com/viewthrea ... ghlight=&page=1
作者: lili2k2    时间: 2013-3-14 08:02

意料之中,虽然不说弱爆了,也没什么能爆表机能的地方,显卡确定HD7770了吗?

次世代真是个悲剧,就没一个给点力的,继续独占玩主机,全平台PC好了。。。
作者: asdqwe    时间: 2013-3-14 08:13

posted by wap, platform: ZTE

安心的买1230+670了...
作者: 倍舒爽    时间: 2013-3-14 08:26

posted by wap, platform: Nokia (E71)

回炉是不可能的。。
720超频才是王道!
gpu超200hz已经和ps4蛮接近了。。
但是主板用料为了稳定性,成本会大幅提高
这招绝对是釜底抽薪的终结技啊。。
就看ms在最后时刻肯不肯浪子回头了

吧主你的华硕卡之前能超多少来着?
作者: KoeiSangokushi    时间: 2013-3-14 08:38

posted by wap, platform: iPhone
引用:
原帖由 @倍舒爽  于 2013-3-14 08:26 发表
posted by wap, platform: Nokia (E71)

回炉是不可能的。。
720超频才是王道!
gpu超200hz已经和ps4蛮接近了。。
但是主板用料为了稳定性,成本会大幅提高
这招绝对是釜底抽薪的终结技啊。。
就看ms在最后时刻 ...
家用机不可能超频的
作者: XBOX720来临    时间: 2013-3-14 09:14

机能管个P用啊, 就算机能只有PS4一半我也买, PS4上有HALO5玩吗?
作者: 小色    时间: 2013-3-14 09:46

居然真这么弱,尼玛微软你想让我转战PC么!!!
作者: KoeiSangokushi    时间: 2013-3-14 10:06

posted by wap, platform: iPhone
引用:
原帖由 @小色  于 2013-3-14 09:46 发表
居然真这么弱,尼玛微软你想让我转战PC么!!!
不玩光环机器确实可以转战
作者: west2046    时间: 2013-3-14 10:10

不是有良心的8G GDDR5吗
作者: 小色    时间: 2013-3-14 10:11

索尼的东西打死不买,早点滚出地球好
作者: chain416    时间: 2013-3-14 10:18

posted by wap, platform: iPad
引用:
原帖由 @小色  于 2013-3-14 09:46 发表
居然真这么弱,尼玛微软你想让我转战PC么!!!
想着pc要挂着360等一堆不知道干嘛的后台进程,不管再强的配置都要来一下的顿卡,越用越慢时不时还要重装的系统,我还是游戏机吧。
作者: west2046    时间: 2013-3-14 10:25

到最后两家出来的游戏画面,有高有低,但还是和PC差距明显,如果要画面就去选PC吧
作者: AngryMulch    时间: 2013-3-14 10:28

光32 esram就会占据多少面积?

之前业内透漏过720的die size是多大去了?
作者: 你老闆    时间: 2013-3-14 12:28

32esram佔6個CU位
看起來不算弱其實
作者: playhoo    时间: 2013-3-14 12:29

拉倒吧,真都是画面党,6年前全转PC去了,现在这里哭喊表态也太后知后觉了吧
作者: KoeiSangokushi    时间: 2013-3-14 12:30

引用:
原帖由 你老闆 于 2013-3-14 12:28 发表
32esram佔6個CU位
看起來不算弱其實
ESRAM的延迟只有GDDR5的四分之一,我估计720的跨平台游戏的帧数和输入延迟依然占据优势
作者: Xerxes    时间: 2013-3-14 12:30

软饭现在是游戏性党了
作者: 首斩破沙罗    时间: 2013-3-14 12:36

引用:
原帖由 playhoo 于 2013-3-14 12:29 发表
拉倒吧,真都是画面党,6年前全转PC去了,现在这里哭喊表态也太后知后觉了吧
其实是,这一代主机的大爆发,正是抢了PC的饭碗,很多PC玩家投入游戏机的后果!
作者: 2006arg    时间: 2013-3-14 12:39

posted by wap, platform: iPhone
引用:
原帖由 @KoeiSangokushi  于 2013-3-14 12:30 发表
ESRAM的延迟只有GDDR5的四分之一,我估计720的跨平台游戏的帧数和输入延迟依然占据优势
720怎么都能赢阿
作者: SEEle13    时间: 2013-3-14 12:42

引用:
原帖由 Xerxes 于 2013-3-14 12:30 发表
软饭现在是游戏性党了
话也不能这样说
大部分PC操作系统是Windows

所以总体来讲次世代游戏画面还是要看微软和苹果
作者: 苍月    时间: 2013-3-14 12:45

560TISLI能否继续秒家用机一个时代?
作者: west2046    时间: 2013-3-14 12:51

索饭不也谈FPS吗?

主机画面比PC差,一味追求画面的PC不是首选?选8G GDDR才是首选?
作者: XBOX720来临    时间: 2013-3-14 12:52

引用:
原帖由 Xerxes 于 2013-3-14 12:30 发表
软饭现在是游戏性党了
索饭是什么党? 画面党都是玩PC的.

索饭别到头来连个党都不是.
作者: KoeiSangokushi    时间: 2013-3-14 12:57

引用:
原帖由 2006arg 于 2013-3-14 12:39 发表
posted by wap, platform: iPhone

720怎么都能赢阿
估计特效方面PS4领先
作者: 江南馄饨    时间: 2013-3-14 13:00

posted by wap, platform: SonyEricsson (Xperia Arc S)

ps3的时候机能差不多也不说pc画面最强,现在还是未确认的呢,就开始用pc踩ps4,万一XO720真的加码,那就好玩了
作者: ffcactus    时间: 2013-3-14 13:06

引用:
原帖由 KoeiSangokushi 于 2013-3-14 12:30 发表

ESRAM的延迟只有GDDR5的四分之一,我估计720的跨平台游戏的帧数和输入延迟依然占据优势
真是为你的智商作急。
作者: lili2k2    时间: 2013-3-14 13:17

话说这代还有几百G的虚拟内存吗?

。。。。。。
作者: KoeiSangokushi    时间: 2013-3-14 13:19

引用:
原帖由 ffcactus 于 2013-3-14 13:06 发表

真是为你的智商作急。
爱抚爱抚大神的平行世界里索尼不是已经收购苹果谷歌,微软破产倒闭了么?
作者: fjfyla    时间: 2013-3-14 13:30

说到底画面党转PC党还不是玩WINDOWS么,有骚泥什么事?:D
作者: ffcactus    时间: 2013-3-14 14:07

引用:
原帖由 KoeiSangokushi 于 2013-3-14 13:19 发表

爱抚爱抚大神的平行世界里索尼不是已经收购苹果谷歌,微软破产倒闭了么?
什么平行世界我不知道, 不过现实世界我真的为你的智商作急。。。
作者: lqdodo    时间: 2013-3-14 14:23

谁最NB谁死掉
作者: west2046    时间: 2013-3-14 15:28

PS3机能不是一直牛比吗?就是画面一直表现不出来,2012年最佳画面还给早一年发售的XO夺得,就算你机能强不服气也没办法
作者: 首斩破沙罗    时间: 2013-3-14 16:17

引用:
原帖由 west2046 于 2013-3-14 15:28 发表
PS3机能不是一直牛比吗?就是画面一直表现不出来,2012年最佳画面还给早一年发售的XO夺得,就算你机能强不服气也没办法
照你这么说,那每一年的最佳画面奖都应该给PC
作者: 倍舒爽    时间: 2013-3-14 16:21

引用:
原帖由 KoeiSangokushi 于 2013-3-14 12:30 发表

ESRAM的延迟只有GDDR5的四分之一,我估计720的跨平台游戏的帧数和输入延迟依然占据优势
我靠,你这是认真还是反串!!!
作者: west2046    时间: 2013-3-14 16:29

引用:
原帖由 首斩破沙罗 于 2013-3-14 16:17 发表

照你这么说,那每一年的最佳画面奖都应该给PC
那个画面奖不是只是引擎的事,美工也占很大分量吧

美工的重要性在一些游戏系列上是很明显吗?时间赶的话,画面比前作倒退
作者: west2046    时间: 2013-3-14 16:34

游戏机如果没有美工慢慢磨,引擎慢慢调,败给PC不是很正常吗?
作者: 你老闆    时间: 2013-3-14 17:44

引用:
原帖由 倍舒爽 于 2013-3-14 16:21 发表


我靠,你这是认真还是反串!!!
SRAM access latency: 2–3ns
DRAM access latency: 20-35ns
作者: 倍舒爽    时间: 2013-3-14 17:53

引用:
原帖由 你老闆 于 2013-3-14 17:44 发表

SRAM access latency: 2–3ns
DRAM access latency: 20-35ns
问题是丫说的是操作延迟和帧数呢。。
我们pc上的内存一代比一代延迟大~
然后我们的pc游戏体验就一代比一代帧数低。。
一代比一代操作更大延迟了???
作者: 你老闆    时间: 2013-3-14 17:58

引用:
原帖由 倍舒爽 于 2013-3-14 17:53 发表


问题是丫说的是操作延迟和帧数呢。。
我们pc上的内存一代比一代延迟大~
然后我们的pc游戏体验就一代比一代帧数低。。
一代比一代操作更大延迟了???
SRAM什麼都比DRAM好,除了價錢和密度,所以很難用SRAM去當主流RAM
作者: west2046    时间: 2013-3-14 18:52

引用:
原帖由 你老闆 于 2013-3-14 17:58 发表

SRAM什麼都比DRAM好,除了價錢和密度,所以很難用SRAM去當主流RAM
是不是可以这样理解?

带宽是等于高速路的车道

延迟是等于高速路的车速
作者: cosmosmz    时间: 2013-3-14 19:35

引用:
原帖由 倍舒爽 于 2013-3-14 17:53 发表


问题是丫说的是操作延迟和帧数呢。。
我们pc上的内存一代比一代延迟大~
然后我们的pc游戏体验就一代比一代帧数低。。
一代比一代操作更大延迟了???
他的世界里 gddr5弱暴了 esram 才能拯救世界 哈哈
作者: cosmosmz    时间: 2013-3-14 19:38

引用:
原帖由 west2046 于 2013-3-14 18:52 发表

是不是可以这样理解?

带宽是等于高速路的车道

延迟是等于高速路的车速
你看pc那个旗舰显卡 不是gddr5显存的  带宽才是王道 对于显卡上哪几千个流处理器恐怖的吞吐量 需要的是带宽 而且对于显卡来说带宽是永远不够的
作者: KoeiSangokushi    时间: 2013-3-14 20:07

posted by wap, platform: iPhone
引用:
原帖由 @west2046  于 2013-3-14 18:52 发表
是不是可以这样理解?

带宽是等于高速路的车道

延迟是等于高速路的车速
带宽等于车道宽度乘以车速
但延迟等于启动和制动的能力
作者: KoeiSangokushi    时间: 2013-3-14 20:09

posted by wap, platform: iPhone
引用:
原帖由 @cosmosmz  于 2013-3-14 19:38 发表
你看pc那个旗舰显卡 不是gddr5显存的  带宽才是王道 对于显卡上哪几千个流处理器恐怖的吞吐量 需要的是带宽 而且对于显卡来说带宽是永远不够的
所以你是觉得PC显卡用10倍于360显卡数量的流处理器,2倍于360显卡的核心频率,10倍于360显卡的显存带宽做出那点画质差距很牛逼?
作者: boboqpai    时间: 2013-3-14 20:22

单独看32MB的ESRAM延时是很低,但由于DME的介入,其作为DME操作过程的一个环节,综合考虑DME操作延时和主内存延时因素,ESRAM的延时可能没有预想那样低。
作者: AngryMulch    时间: 2013-3-14 20:26

引用:
原帖由 KoeiSangokushi 于 2013-3-14 12:30 发表

ESRAM的延迟只有GDDR5的四分之一,我估计720的跨平台游戏的帧数和输入延迟依然占据优势
目前看起来帧数才是720才需要担心的

CPU重视延迟
GPU重视带宽

GPU不会像CPU一样频繁又琐碎的去存取内存

就架构图那个GPU MEMORY SYSTEM完全是来弥补720带宽不足的解决方案

但是瓶颈在哪里,还是可以窥见一二
作者: shinkamui    时间: 2013-3-14 22:07

引用:
原帖由 AngryMulch 于 2013-3-14 20:26 发表


目前看起来帧数才是720才需要担心的

CPU重视延迟
GPU重视带宽

GPU不会像CPU一样频繁又琐碎的去存取内存

就架构图那个GPU MEMORY SYSTEM完全是来弥补720带宽不足的解决方案

但是瓶颈在哪里,还是可以 ...
整个是胡扯……
gpu,特别是现在的gpu,读写内存远比cpu频繁琐碎
作者: AngryMulch    时间: 2013-3-14 22:27

引用:
原帖由 shinkamui 于 2013-3-14 22:07 发表

整个是胡扯……
gpu,特别是现在的gpu,读写内存远比cpu频繁琐碎
你要瞎掰也用脑子

你去想想为什么DDR GDDR有什么区别好么

[ 本帖最后由 AngryMulch 于 2013-3-14 22:38 编辑 ]
作者: shinkamui    时间: 2013-3-14 22:45

引用:
原帖由 AngryMulch 于 2013-3-14 22:27 发表


你要瞎掰也用脑子

你去想想为什么DDR GDDR有什么区别好么
DirectX,OpenGL随便一个的sdk看懂了再来说话。GPGPU三大api随便找个例子看看人家优化的目标是什么。你以为GPGPU比ps快在哪里?
作者: 小僵尸    时间: 2013-3-14 22:47

引用:
原帖由 shinkamui 于 2013-3-14 22:45 发表

DirectX,OpenGL随便一个的sdk看懂了再来说话。GPGPU三大api随便找个例子看看人家优化的目标是什么。你以为GPGPU比ps快在哪里?
你和存片较真会降低身价的
作者: KoeiSangokushi    时间: 2013-3-14 22:51

引用:
原帖由 boboqpai 于 2013-3-14 20:22 发表
单独看32MB的ESRAM延时是很低,但由于DME的介入,其作为DME操作过程的一个环节,综合考虑DME操作延时和主内存延时因素,ESRAM的延时可能没有预想那样低。
真要较真的话,ESRAM本身的延迟只有GDDR5的十分之一的
我说四分之一已经是考虑到这个因素了
作者: AngryMulch    时间: 2013-3-14 23:06

引用:
原帖由 shinkamui 于 2013-3-14 22:45 发表

DirectX,OpenGL随便一个的sdk看懂了再来说话。GPGPU三大api随便找个例子看看人家优化的目标是什么。你以为GPGPU比ps快在哪里?
东拉西扯慌慌张张的你,应该先去弄懂什么叫做延时

然后GPU通常计算要去"掩饰"的手段多的是,相比720的情况下,显存延时根本不至于构成效能瓶颈

[ 本帖最后由 AngryMulch 于 2013-3-14 23:08 编辑 ]
作者: boboqpai    时间: 2013-3-14 23:32

引用:
原帖由 KoeiSangokushi 于 2013-3-14 22:51 发表

真要较真的话,ESRAM本身的延迟只有GDDR5的十分之一的
我说四分之一已经是考虑到这个因素了
十分之一?哪来的数据?目前看到的是为了达到和PS4相同的带宽增加了架构的复杂程度,这对游戏开发者来说不是件好事,下世代情况可能要反过来,而且就算以后出现大量需要计算的图形处理720的GPU运算资源也比PS4少了30%,综合性能没有优势可言。
作者: 倍舒爽    时间: 2013-3-15 00:15

有句讲句就可,吧主你融入过多的个人情感。。一个月内立场转了无限次。。
起码得搬运些论据吧。。
常规光栅化渲染方式下,7850和7770在游戏上的实际差距比从字面上的理解恐怕还要大~
这是实际游戏的对比(老式渲染)
[attach]515742[/attach]
注意,这里有仅仅有两项涉及到gpgpu的运算参考的。。
DirectX11 Compute Shader Fluid Simulation - Nearest Neighbor

AESEncryptDecrypt
8K x 8K Image Encrypt - Time in Milliseconds (Lower is Better)

这是1200p, 8xAA and 16xAF下bc2的对比:

可以看到在越$高分辨率越高aa差距越大,这很大程度是由于rop数量的差别。。
ps4的32rops应该是为3d的诉求~

另外再重申,720不等于7770,7770仅有10组cu,而720有12组,不过7770运行于1ghz下而720为800hz,但计算能力都是1.2tf左右
而7770内存用的是4.5ghz 128bit的gd5~
其他rop和tmu和7770一样。。

ps4也不是7850,ps4的rop数和tmu比7850多,达到7870的水准,内存频率比7870的4.8ghz还要高,达到5.5ghz~
计算单元方面,7850为16cu,7870为20,ps4为18组
但频率仅为800hz,7870为1ghz

传统渲染方面,高频gd5一体式无论效率和性能都会高于esram+ddr3~
综上所述,两者传统渲染方面实际差距可能会比上面图表上的更大。。。

但是这里有个变数。。。
由于以后的游戏像ue4和id新引擎很大程度都拿整个apu当cpu来用~
而ps4上的gd5却不适合通用运算,而内存系统在通用运算上又举足轻重,所以这方面可能会显得ddr3+esram有优势了


关于延迟的问题,某程度是很致命的,简单可以这么说。。。
用高速u盘烤一个10g的文件很快,但是用来烤1000个总容量为10g的文件堆就慢到扑街,时间用多n倍。。
高带宽有利于前者,而低延迟就有利于后者~
作者: KoeiSangokushi    时间: 2013-3-15 00:23

引用:
原帖由 倍舒爽 于 2013-3-15 00:15 发表
有句讲句就可,吧主你融入过多的个人情感。。一个月内立场转了无限次。。
起码得搬运些论据吧。。
常规光栅化渲染方式下,7850和7770在游戏上的实际差距比从字面上的理解恐怕还要大~
这是实际游戏的对比(老式渲染 ...
我不觉得有什么融入过多个人情感
我每次提出的观点都是基于“爆料属实”的前提
这回的细节足够多,让我对DME有了一个比较直观的感受
至于GPU渲染性能的差距之前说过无数次了是1比1.5
但是问题是次世代XBOX不是PS4那样的纯PC
你不能拿两台对待GPU小范围高频率数据读取方式处理不同的系统来套SP数量算实际游戏性能
好比你不能认为DDR2的9800GT比DDR3的9600GT强,尽管前者SP数量是后者两倍

[ 本帖最后由 KoeiSangokushi 于 2013-3-15 00:26 编辑 ]
作者: 倍舒爽    时间: 2013-3-15 00:36

引用:
原帖由 KoeiSangokushi 于 2013-3-15 00:23 发表

我不觉得有什么融入过多个人情感
我每次提出的观点都是基于“爆料属实”的前提
这回的细节足够多,让我对DME有了一个比较直观的感受
至于GPU渲染性能的差距之前说过无数次了是1比1.5
但是问题是次世代XBOX不是 ...
之前捧ps3然后拿些莫须有的罪名来踩xo。。
过段世杰又说什么720规格低啊没人买啊什么的,那时我喷你们这些显卡吧的人就是光会盲追高规格其余啥都不管。。
然后过了几天又突然变身说720会赢啊,因为人家不跟你玩传统了。。
现在又毫无论据说720性能有戏有戏有有戏!!

你连什么操作延迟也拿来扯谈了。。
内存的延迟用的单位可是纳秒啊,就算连撒亚人也感觉不到纳秒级的差别吧。。

还用延迟来说帧率,你这帧率牵涉到的因素可多广啊。。。。
作者: boboqpai    时间: 2013-3-15 00:39

引用:
原帖由 倍舒爽 于 2013-3-15 00:15 发表
有句讲句就可,吧主你融入过多的个人情感。。一个月内立场转了无限次。。
起码得搬运些论据吧。。
常规光栅化渲染方式下,7850和7770在游戏上的实际差距比从字面上的理解恐怕还要大~
这是实际游戏的对比(老式渲染 ...
GDDR5通用计算没问题,关键字“Xeon Phi”

http://tech.hexun.com/2012-11-19/148089632.html
作者: KoeiSangokushi    时间: 2013-3-15 00:42

引用:
原帖由 倍舒爽 于 2013-3-15 00:36 发表


之前捧ps3然后拿些莫须有的罪名来踩xo。。
过段世杰又说什么720规格低啊没人买啊什么的,那时我喷你们这些显卡吧的人就是光会盲追高规格其余啥都不管。。
然后过了几天又突然变身说720会赢啊,因为人家不跟你玩 ...
我捧PS3就是因为360版COD一度配对锁国搞的我玩不爽对战
但是玩久了还是觉得360好
然后720的768SP规格当时确实是令我心寒,因为当时我并不知道DME是啥情况
不过后来DME的细节越来也多,我又有信心了
另外我说的帧数和输入延迟是基于GPU实际处理能力方面的:因为有DME和ESRAM,720可能重新在GPU实际处理能力上占据上风
作者: AngryMulch    时间: 2013-3-15 00:48

引用:
原帖由 倍舒爽 于 2013-3-15 00:15 发表
有句讲句就可,吧主你融入过多的个人情感。。一个月内立场转了无限次。。
起码得搬运些论据吧。。
常规光栅化渲染方式下,7850和7770在游戏上的实际差距比从字面上的理解恐怕还要大~
这是实际游戏的对比(老式渲染 ...
有些情报是第一次看见...
720的GPU是7770? 不会是从die size去推估出来的吧?CPU一样+32MB的esram+....,之前不是听说是8xxx么?
引用:
ps4也不是7850,ps4的rop数和tmu比7850多,达到7870的水准,内存频率比7870的4.8ghz还要高,达到5.5ghz~
计算单元方面,7850为16cu,7870为20,ps4为18组
但频率仅为800hz,7870为1ghz
PS4有18组CU还能够理解,八成是从已知的浮点能力去推算出来
32 rops是何时从哪里爆料的?
引用:
但是这里有个变数。。。
由于以后的游戏像ue4和id新引擎很大程度都拿整个apu当cpu来用~
而ps4上的gd5却不适合通用运算,而内存系统在通用运算上又举足轻重,所以这方面可能会显得ddr3+esram有优势了
这点不认同....因为"很大程度"使用APU来当做通用运算,所以延时问题是可以巧妙避免的
作者: 你老闆    时间: 2013-3-15 00:53

引用:
原帖由 倍舒爽 于 2013-3-15 00:36 发表


之前捧ps3然后拿些莫须有的罪名来踩xo。。
过段世杰又说什么720规格低啊没人买啊什么的,那时我喷你们这些显卡吧的人就是光会盲追高规格其余啥都不管。。
然后过了几天又突然变身说720会赢啊,因为人家不跟你玩 ...
7770是128bit,不過720的是256bit
作者: 倍舒爽    时间: 2013-3-15 00:55

引用:
原帖由 AngryMulch 于 2013-3-15 00:48 发表



有些情报是第一次看见...
720的GPU是7770? 不会是从die size去推估出来的吧?CPU一样+32MB的esram+....,之前不是听说是8xxx么?




PS4有18组CU还能够理解,八成是从已知的浮点能力去推算出来
32 r ...
都是vgl的料,只是大部分人没好好看罢了。。
作者: KoeiSangokushi    时间: 2013-3-15 00:56

引用:
原帖由 你老闆 于 2013-3-15 00:53 发表

7770是128bit,不過720的是256bit
2133MHz/256bit是APU和主内存的联系
不光是GPU在用,CPU也要分享

[ 本帖最后由 KoeiSangokushi 于 2013-3-15 00:57 编辑 ]
作者: 你老闆    时间: 2013-3-15 01:01

嗯,提提而已
另外我不知720的GPU到底用啥做底,不過會帶Ray tracing




欢迎光临 TGFC Lifestyle (http://bbs.tgfcer.com/) Powered by Discuz! 6.0.0