TGFC Lifestyle - Powered by Discuz! Board

标题: [新闻] 【英特尔版四两拨千斤】Haswell中的eDRAM：性能提升明显价格稍贵 [打印本页]

作者: KoeiSangokushi 时间: 2013-4-29 09:13 标题: 【英特尔版四两拨千斤】Haswell中的eDRAM：性能提升明显价格稍贵

有关Haswell的核芯显卡，在最近可谓异常吸引眼球。
　　在北京IDF2013上，施浩德曾表示：“Haswell中的核芯显卡的性能，将能够超过80%中国市场中的独立显卡。”
　　这一惊人的数字令现场很多人惊讶不已。就连笔者也没有想到，Haswell中的核芯显卡会有这么强大。当然，性能到底如何，我们还不能断言，还是要看实际的测试结果。
而最近，有关Haswell核芯显卡又有了一些消息。Haswell处理器的核芯显卡不但有GT1、GT2、GT3三个档次，最上边还有个整合eDRAM缓存的GT3e。
　　而有关eDRAM缓存，笔者在之前的一篇文章中，做过详细的介绍和分析。而最近，通过更细致、专业的分析，我们又发现了这点缓存的更多秘密。
　　话说DRAM这个缓存，其实早在Ivy Bridge中，Intel就曾经考虑过将其整合到芯片中，以此来提高GPU的性能。但是后来，出于对成本和发热量两方面考虑，这种设计被欧德宁否定了。随之，这个计划也就流产了。
　　而在即将发布的Haswell里，我们终于能够见到DRAM了。Haswell中的GPU搭配40个执行单元，这将是Intel有史以来最强大的图形核心，并且号称能够媲美NVIDIA GeForce GT 650M。不过这也只是会出现在高端笔记本当中，貌似在桌面平台和超极本中我们无缘见面。
　　Intel曾经发布过一篇论文“具备三栅极晶体管和MIMCAP集成缓存的22nm高性能嵌入式DRAM SoC技术”。据此分析，Haswell GT3e搭配了128MB eDRAM缓存，和处理器之间的通信总线位宽在达到了512-bit，带宽估计有64GB/s，达到了主流笔记本显卡的水平。
　　之所以用eDRAM而不用DDR3，主要是因为eDRAM更容易集成到Intel现有的工艺中，还有功耗、制造难度、成本等方面的考虑。
　　Intel 22nm工艺下，eDRAM每个单元的面积是0.029平方微米，存储密度大约是每平方毫米17.5Mb，128MB就接近60平方毫米，还得加上外部接口等模块，估计总面积70-80平方毫米，即使这样，也将占据Haswell 1/3左右的面积，Haswell处理器本身约210-240平方毫米。
　　而本文想说的重点，则是有关搭载GT3e处理器的价格。
　　如果你想购买具备GT3e的处理器，需要为这些缓存额外支付多达50美元，价格相当高，已经可以入手一款低端的双核处理器了。所以它注定了只会用在高端笔记本上。要知道，Core i7-4770K的代理商报价为327美元，如果配备GT3e的话就会升至377美元，估计很多人都无法接受。

作者: cyran5201314 时间: 2013-4-29 09:18

发热量低的话还好，不然就呵呵后

作者: ff_cactus 时间: 2013-4-29 09:27

posted by wap, platform: iPhone

再明显不过了。

intel：
＂　　之所以用eDRAM而不用DDR3，主要是因为eDRAM更容易集成到Intel现有的工艺中，还有功耗、制造难度、成本等方面的考虑。＂

SONY：
＂Cerny表示，原本团队也可以将总线位宽缩水至128位，这样带宽就只有88GB/S，然后在芯片上集成eDRAM将性能提回去。一开始团队也考虑过这种更容易生产的做法。但由于这会增加开发者的复杂性，他们放弃了这种思路。不想为开发者社区造成麻烦，这就是坚持统一内存的原因。＂

作者: 倍舒爽 时间: 2013-4-29 11:37

posted by wap, platform: iPhone

ddr4甚至stacked dram要出的话还有一段长时间，其实lz以你的知识水准肯定明白为啥pc的apu要上edram，对不

作者: 宜静和大雄 时间: 2013-4-29 11:41

笔记本从来都不用带独显的。。这个CPU 我会考虑。

不过媲美2G显存。这个靠谱么。

作者: KoeiSangokushi 时间: 2013-4-29 12:01

引用:

原帖由 倍舒爽 于 2013-4-29 11:37 发表
posted by wap, platform: iPhone

ddr4甚至stacked dram要出的话还有一段长时间，其实lz以你的知识水准肯定明白为啥pc的apu要上edram，对不

我确实认为带EDRAM的APU会比不带EDRAM只依靠共享内存的的APU性能更好

[ 本帖最后由 KoeiSangokushi 于 2013-4-29 12:44 编辑 ]

作者: KoeiSangokushi 时间: 2013-4-29 12:05

引用:

原帖由 宜静和大雄 于 2013-4-29 11:41 发表
笔记本从来都不用带独显的。。这个CPU 我会考虑。

不过媲美2G显存。这个靠谱么。

EDRAM只要很小的容量就能实现大容量高带宽普通DDR内存的性能
当然，ESRAM比EDRAM还强的多

作者: 倍舒爽 时间: 2013-4-29 12:21

posted by wap, platform: iPhone

引用:

原帖由 @KoeiSangokushi 于 2013-4-29 12:01 发表
我确实认为带EDRAM的APU会比不带EDRAM只依靠共享内存的的APU性能更好

这是一定的，但在pc上也是无奈的，不然就没有其他低成本的内存总线解决方案了，只能走pcb

作者: KoeiSangokushi 时间: 2013-4-29 12:23

引用:

原帖由 倍舒爽 于 2013-4-29 12:21 发表
posted by wap, platform: iPhone

这是一定的，但在pc上也是无奈的，不然就没有其他低成本的内存总线解决方案了，只能走pcb

PS4的统一寻址和PC传统的集成显卡共享显存相比，只有一个好处，就是免得纹理内容在内存中再转存一次
但是缺点就是，内存溢出的风险可能会加大，对于达芬奇这种程序高手可能不是问题，但是对于一般开发商而言就未必
或许这就正是PS4仅能利用5GB内存的原因——除去系统开销，还要为防范内存溢出而在内存上划分出额外的缓冲区

相对而言，不存在纹理内容在内存中再转存一次问题的XBOX360和XBOX无限的策略要更聪明
直接将纹理内容载入主内存，然后把需要实时使用的内容在DME的协助下通过高速低延迟EDRAM/ESRAM进行转移
更为干脆利落，不留空档

我更为倾向于认为PS4的这种做法不是达芬奇所谓的“为开发降低难度”，恰恰相反，这种做法比XBOX360和XBOX无限的取巧机制要更麻烦，对开发商要求更高。原因可能仅只是因为在APU内融入ESRAM的制造难度较高，索尼缺乏这类芯片级设计人才，不愿意冒良率较低和延迟发售的风险。

[ 本帖最后由 KoeiSangokushi 于 2013-4-29 14:20 编辑 ]

作者: KoeiSangokushi 时间: 2013-4-29 12:48

引用:

原帖由 KoeiSangokushi 于 2013-4-29 12:23 发表

PS4的统一寻址和PC传统的集成显卡共享显存相比，只有一个好处，就是免得纹理内容在内存中再转存一次
但是缺点就是，内存溢出的风险可能会加大，对于达芬奇这种程序高手可能不是问题，但是对于一般开发商而言就未必 ...

这还仅是在传统渲染方式中EDRAM和ESRAM所拥有的优势
若把眼光放到未来的通用计算之中的话，可以充当APU的L3的ESRAM则更容易发挥其独特的威力

[ 本帖最后由 KoeiSangokushi 于 2013-4-29 12:50 编辑 ]

作者: 倍舒爽 时间: 2013-4-29 13:24

“原因可能仅只是因为在APU内融入ESRAM的制造难度较高”
偶开始是这么想，现在不是了。。

1.达芬奇说是edram是成本更低廉的方案
（我假设sony是原罪的，假设这段是他的pr话，但是单一高速内存池带来更便利的开发和内存利用效率在digital foundry的分析文中有肯定）

2.intel：还有功耗、制造难度、成本等方面的考虑。
（否则以pc的架构和现有的内存厂商生产的颗粒实在无解，频率不是最大重点，位宽才是硬伤！
解决带宽问题只能上stacked dram，根据nvidIA的roadmap，要到2015）

3.相信sony的团队不会比任天堂差，但是出了名抠的wiiu的gpu也是edram
（有别于intel和xenos的胶水daughter die，和durango一样是做到里面去的）

综合这三点去考量一下结果？？

且芯片工程方面，sony也不算太差。某些方面有见长~
stacked cmos就是索尼首创并量产的，思路和stacked dram一样。。
另外其cmos份额也占据了世界6成市场，剩余的份额，不少也是一些低端应用的诉求~
还有被一度认为不可能的逆天工程：rx1掌上全幅机。。
可以了解下在这么狭窄的空间里要装上全幅cmos及相应高速dsp的难度到底有多大。。。

通用运算方面，我认同esram应该有比单纯的内存池有见长的地方。。
传统渲染，绝不可能，完全不需要看前端运算模块，光看后端输出就行，32rops vs 16rops

具体例子看ps3和xo就成，p3运算能力是强，像素化能力不及xo，始终碰了不少壁。。

[ 本帖最后由倍舒爽于 2013-4-29 13:32 编辑 ]

作者: KoeiSangokushi 时间: 2013-4-29 13:29

引用:

原帖由 倍舒爽 于 2013-4-29 13:24 发表
“原因可能仅只是因为在APU内融入ESRAM的制造难度较高”
偶开始是这么想，现在不是了。。

1.达芬奇说是edram是成本更低廉的方案
（我假设sony是原罪的，假设这段是他的pr话，但是单一高速内存池带来更便利的开发 ...

1、EDRAM是成本更低的方案，但是ESRAM同容量成本是EDRAM的十倍，效能也是远胜

2、蓝星最强芯片商在EDRAM上都表示有此顾虑，这很好的解释了之前XBOX无限在搭载ESRAM的APU量产问题上的反复，另外SRAM跟DRAM原理不一样，DRAM有的问题SRAM不一定有，反过来SRAM可能会多一些技术挑战

3、参考1、

4、索尼在内存芯片上不弱，但是在SOC上没见有太大长处，跟INTEL-MS-AMD-IBM团体的紧密关系不同。而在APU内集成ESRAM不应该被认为是一件容易的事

[ 本帖最后由 KoeiSangokushi 于 2013-4-29 13:39 编辑 ]

作者: boboqpai 时间: 2013-4-29 13:38

首先GPU这种数学浮点计算器对大缓存不敏感，但对内存带宽的提升却是立竿见影的。

其次很明显720的ESRAM更多的是照顾GPU，因为它对于CPU/GPU并不是对称的，CPU还需要通过北桥才能访问到ESRAM，能否进行统一编址还是个大疑问。

最后，由于720的ESRAM和DME，PS4编程比720简单这是肯定的。

[ 本帖最后由 boboqpai 于 2013-4-29 13:40 编辑 ]

作者: thinkerl 时间: 2013-4-29 13:46

说实话，我觉得“四两拨千斤”朋友应该是位中小学生；

出于兴趣，在网上搜罗一些专业名词，开口闭口砖家范儿，实际上狗屁不通。

我想说intel用esram关xbox妹事？

作者: KoeiSangokushi 时间: 2013-4-29 13:49

引用:

原帖由 boboqpai 于 2013-4-29 13:38 发表
首先GPU这种数学浮点计算器对大缓存不敏感，但对内存带宽的提升却是立竿见影的。

其次很明显720的ESRAM更多的是照顾GPU，因为它对于CPU/GPU并不是对称的，CPU还需要通过北桥才能访问到ESRAM，能否进行统一编址还是 ...

按1的逻辑独立显存都是废物
2的前半句是废话，后半句跟3矛盾
3带来的难度增加不及统一寻址带来的内存泄漏风险带来的开发难度增加

[ 本帖最后由 KoeiSangokushi 于 2013-4-29 13:53 编辑 ]

作者: KoeiSangokushi 时间: 2013-4-29 13:52

引用:

原帖由 thinkerl 于 2011-6-12 02:40 发表

其实，我只是恨铁不成钢的索饭。 ...

:D :D :D :D

作者: boboqpai 时间: 2013-4-29 13:54

引用:

原帖由 KoeiSangokushi 于 2013-4-29 13:49 发表

按1的逻辑独立显存都是废物
2是的前半句是废话，后半句跟3矛盾
3带来的难度增加不及统一寻址带来的内存泄漏风险带来的开发难度增加

第一条你理解不能，在DDR3这种低带宽内存基础上使用一颗高速内存可极大提高内存带宽。

第二没有冲突，不能统一编址编程难度肯定增加。

第三，这种低级错误豪不担心。

作者: 倍舒爽 时间: 2013-4-29 13:56

引用:

原帖由 KoeiSangokushi 于 2013-4-29 13:29 发表

1、EDRAM是成本更低的方案，但是ESRAM同容量成本是EDRAM的十倍，效能也是远胜

2、蓝星最强芯片商在EDRAM上都表示有此顾虑，这很好的解释了之前XBOX无限在搭载ESRAM的APU量产问题上的反复，另外SRAM跟DRAM原理 ...

我认为当时ivb没上edram是因为和软件方面大环境有关。。
。。。。这里当然包括ms的dx制定步伐。。

haswell作为同样是以统一寻址，异构运算为目标的apu~无论解决方案多先进有效。。
如果api，应用软件环境跟不上也是白搭的。。
在市场上一样会被边缘化。。

但是现在hsa联盟以及nv都有若干异构运算方案都出来了，异构大环境比之前要好很多。。

durango肯定也是统一寻址，这一点根本不需要说什么了。。。

[ 本帖最后由倍舒爽于 2013-4-29 13:59 编辑 ]

作者: shinkamui 时间: 2013-4-29 13:59

引用:

原帖由 boboqpai 于 2013-4-29 13:38 发表
首先GPU这种数学浮点计算器对大缓存不敏感，但对内存带宽的提升却是立竿见影的。

其次很明显720的ESRAM更多的是照顾GPU，因为它对于CPU/GPU并不是对称的，CPU还需要通过北桥才能访问到ESRAM，能否进行统一编址还是 ...

通用计算极端需要大缓存

作者: KoeiSangokushi 时间: 2013-4-29 14:01

引用:

原帖由 boboqpai 于 2013-4-29 13:54 发表

第一条你理解不能，在DDR3这种低带宽内存基础上使用一颗高速内存可极大提高内存带宽。

第二没有冲突，不能统一编址编程难度肯定增加。

第三，这种低级错误豪不担心。

1、ESRAM本身就是延迟不足GDDR5十分之一，带宽达到100GB/S以上的高速内存

2的后半句和3当然有冲突，DME就是让数据移动难度大幅下降的工具

3、这种低级错误的结果就是只给游戏用5GB的RAM，剩下3GB除了作为系统和社交程序所用，恐怕还包括了在内存中划分的缓冲区域

[ 本帖最后由 KoeiSangokushi 于 2013-4-29 14:03 编辑 ]

作者: KoeiSangokushi 时间: 2013-4-29 14:01

引用:

原帖由 倍舒爽 于 2013-4-29 13:56 发表

我认为当时ivb没上edram是因为和软件方面大环境有关。。
。。。。这里当然包括ms的dx制定步伐。。

haswell作为同样是以统一寻址，异构运算为目标的apu~无论解决方案多先进有效。。
如果api，应用软件环境跟 ...

基本赞同

作者: boboqpai 时间: 2013-4-29 14:04

引用:

原帖由 shinkamui 于 2013-4-29 13:59 发表

通用计算极端需要大缓存

巨硬之所以这样设计ESRAM就证明其考虑初衷并不是异构计算，就算是DirectCompute，GPU执行的部分也是以数学形式进行，对大缓存不敏感。

作者: KoeiSangokushi 时间: 2013-4-29 14:07

引用:

原帖由 boboqpai 于 2013-4-29 14:04 发表

巨硬之所以这样设计ESRAM就证明其考虑初衷并不是异构计算，就算是DirectCompute，GPU执行的部分也是以数学形式进行，对大缓存不敏感。

XBOX无限APU内置的ESRAM仅32MB，容量很大么？

作者: thinkerl 时间: 2013-4-29 14:08

引用:

原帖由 KoeiSangokushi 于 2013-4-29 13:52 发表

:D :D :D :D

看了半天，我想你的观点是：
3盒有类esram架构的大intel精神光环加成；
4p 是傻愣粗暴有效的8GB DDR5 176GB/s暴力带宽。

一个是四两拨千斤太极宗师；
一个是重量级格斗拳王。

是不是这个道理？

作者: KoeiSangokushi 时间: 2013-4-29 14:10

引用:

原帖由 thinkerl 于 2013-4-29 14:08 发表

看了半天，我想你的观点是：
3盒有类esram架构的大intel精神光环加成；
4p 是傻愣粗暴有效的8GB DDR5 176GB/s暴力带宽。

一个是四两拨千斤太极宗师；
一个是重量级格斗拳王。

是不是这个道理？:lo ...

:D :D :D :D

作者: shinkamui 时间: 2013-4-29 14:15

引用:

原帖由 boboqpai 于 2013-4-29 14:04 发表

巨硬之所以这样设计ESRAM就证明其考虑初衷并不是异构计算，就算是DirectCompute，GPU执行的部分也是以数学形式进行，对大缓存不敏感。

你一定没写过gpgpu程序，写过的就知道大缓存多重要。否则pixel shader就能做大部分事情了干嘛要出个compute shader

作者: boboqpai 时间: 2013-4-29 14:21

引用:

原帖由 shinkamui 于 2013-4-29 14:15 发表

你一定没写过gpgpu程序，写过的就知道大缓存多重要。否则pixel shader就能做大部分事情了干嘛要出个compute shader

Compute Shader前半部缓存在CPU里

作者: 首斩破沙罗 时间: 2013-4-29 14:25

引用:

原帖由 KoeiSangokushi 于 2013-4-29 13:49 发表

按1的逻辑独立显存都是废物
2的前半句是废话，后半句跟3矛盾
3带来的难度增加不及统一寻址带来的内存泄漏风险带来的开发难度增加

谁告诉你难度增加了？那个技术文档说一定会有内存泄漏风险而720就没有了？

作者: shinkamui 时间: 2013-4-29 14:26

引用:

原帖由 boboqpai 于 2013-4-29 14:21 发表

Compute Shader前半部缓存在CPU里

真心不知道你在说什么。没写过的话，至少去看看例子。最简单的比如nbody，blur之类，看看性能是怎么提升的。

作者: KoeiSangokushi 时间: 2013-4-29 14:33

引用:

原帖由 首斩破沙罗 于 2013-4-29 14:25 发表

谁告诉你难度增加了？那个技术文档说一定会有内存泄漏风险而720就没有了？

我跟一位业余引擎爱好者交流制作MOD的心得时，随口提到XBOX360内存比PS3更灵活
他的回答是：XBOX360这样做的弊端就是，如果不搭载EDRAM而一味操作512MB的主内存的话，容易造成内存泄漏，而PS3的分离式内存则不存在这一问题。

如果不搭载EDRAM的话，也不是没有方法解决内存泄漏的问题，那就是在512MB主内存中划出相当一部分的容量作为缓冲区，但在这样做的后果就是可用内存减少。

[ 本帖最后由 KoeiSangokushi 于 2013-4-29 14:39 编辑 ]

作者: boboqpai 时间: 2013-4-29 14:39

引用:

原帖由 shinkamui 于 2013-4-29 14:26 发表

真心不知道你在说什么。没写过的话，至少去看看例子。最简单的比如nbody，blur之类，看看性能是怎么提升的。

直接说关键了，读写缓存方面的开销，Cerny提到了这个。

作者: shinkamui 时间: 2013-4-29 14:45

引用:

原帖由 boboqpai 于 2013-4-29 14:39 发表

直接说关键了，读写缓存方面的开销，Cerny提到了这个。

说了半天你还是没搞过，shader根本不存在什么前端后端的。看看书明白了再出来说话会死么？非要不懂装懂。

cerny的读写缓存开销分两点，一个是set device资源，一个是device计算时读写资源，就是更加说明了大缓存的重要性。

作者: boboqpai 时间: 2013-4-29 14:51

引用:

原帖由 shinkamui 于 2013-4-29 14:45 发表

说了半天你还是没搞过，shader根本不存在什么前端后端的。看看书明白了再出来说话会死么？非要不懂装懂。

cerny的读写缓存开销分两点，一个是set device资源，一个是device计算时读写资源，就是更加说明了大缓存 ...

Cerny的意思不是直接在内存set device？绕过缓存。

作者: shinkamui 时间: 2013-4-29 15:09

引用:

原帖由 boboqpai 于 2013-4-29 14:51 发表

Cerny的意思不是直接在内存set device？绕过缓存。

没法跟你说了，先去看dxsdk弄明白管线流程再说吧

作者: boboqpai 时间: 2013-4-29 15:30

还是看实际效果吧，720的esram并不是本地缓存，ps4的做法也是第一次，都不知道效果怎样。

作者: shinkamui 时间: 2013-4-29 15:33

引用:

原帖由 boboqpai 于 2013-4-29 15:30 发表
还是看实际效果吧，720的esram并不是本地缓存，ps4的做法也是第一次，都不知道效果怎样。

这个倒是说的没错。我也只是说大缓存非常有用，不过720的esram到底咋样，反正我是不知道……

作者: 來福時代 时间: 2013-4-29 16:15

以技术砖家的装模做样的口吻来吐一些技术盲一样的观点，这贴真是有趣娱乐得紧啊 :D

作者: FXCarl 时间: 2013-4-29 21:33

我是不觉得内存泄漏和统一架构有什么关系，顺带我也并不认为大多数的程序员需要关心这个方面 …… 老老实实的申请空间销毁对象，泄漏个毛线啊。我倒认为内存越多越毛病，数据挪来挪去的。

编程复杂度的问题更像是个沟通问题 …… 多花点时间和技术美术沟通好自己游戏的渲染流程比专门琢磨硬件怎么能实现各种花样要靠谱。因为不做底层开发的缘故，我更加觉得这事情是个沟通问题。讨论好需要几张缓冲，按照什么样的顺序来使用，每张缓冲有多少分辨率，哪些缓冲用完可以写入别的东西 —— 预先对存储空间的使用做好预算和君子协定，实现不了的东西就绕过去呗

不从使用目的出发的性能讨论难道不都是耍流氓么 ……

于是本着不耍流氓的态度来说，我觉得内存一致化的方式会更让人觉得安心 —— 因为没有什么特定的需要注意的地方，也没有某个性能拐点。最惹人讨厌的事情一般都是“我们可以怎么怎么做，但是需要在某个特定的条件，或者什么什么不能超过什么什么”，说到最后还是要靠设计的人来规避，内容制作不断的走弯路还累成狗。

不过 Haswell 要是真敢弄 128M eDRAM 进去，我看也就没主内存什么事情了，投资百万美元级别的中小行游戏基本上美术资源用不掉那么大显存 …… 就看国内页游那德行 …… 50美元不便宜 ……

[ 本帖最后由 FXCarl 于 2013-4-29 21:51 编辑 ]

作者: ylgtx 时间: 2013-4-29 22:23

集成显卡，不抱希望。能比得上apu里的就不错了

作者: Zico2003 时间: 2013-4-29 22:29

怎么可能比得上APU……

再说INTEL的集显驱动一直是硬伤，高薪把NV的QUADRO驱动团队挖来算了

作者: 倍舒爽 时间: 2013-4-30 01:17

引用:

原帖由 FXCarl 于 2013-4-29 21:33 发表
我是不觉得内存泄漏和统一架构有什么关系，顺带我也并不认为大多数的程序员需要关心这个方面 …… 老老实实的申请空间销毁对象，泄漏个毛线啊。我倒认为内存越多越毛病，数据挪来挪去的。

编程复杂度的问题更像是 ...

我认为各位不要把思路放到传统核显上~
传统的核显基本就是用来跑跑低端游戏而已~
也就是你干你的我还是干我的。。

而haswell我估计在很多应用上是把gpu当作成cpu的协处理器~

静观微软有什么动作吧。。

但有一句话让我很抓头，“超过80%的天朝独显”
两个关键字，天朝和80%

为啥要定在天朝这个范围内？？咱们的独显和国外的有个p分别咩。。

超过80%的独显性能？？
如果解读为游戏性能的话，偶觉得就扯谈了~
应该是某些应用吧！！例如压片或者图片等一些媒体处理？？

[ 本帖最后由倍舒爽于 2013-4-30 01:39 编辑 ]

作者: boboqpai 时间: 2013-4-30 08:34

来分析下，如果这颗edram对异构计算作用这么大，为什么intel不把它用在桌面？intel也只提到gpu性能。
前面说的720那颗esram不再同一总线同一控制器下，如果不能统一编址（共享数据），那意味着数据需复制到内存才能共享。

作者: FXCarl 时间: 2013-4-30 13:07

引用:

原帖由 boboqpai 于 2013-4-30 08:34 发表
来分析下，如果这颗edram对异构计算作用这么大，为什么intel不把它用在桌面？intel也只提到gpu性能。
前面说的720那颗esram不再同一总线同一控制器下，如果不能统一编址（共享数据），那意味着数据需复制到内存才能 ...

…… 总觉得异构计算的需求属于很微妙的领域。目前绝大多数抱怨速度不够快的应用场合对速度的容忍都很宽裕。譬如 Final Cut Pro 这种东西，出个片子总归几个小时，能提升数倍显然不错，但是此时又对数据拷贝多消耗的那些个秒数没感觉了。另外就是这种应用场合，在日常使用中比例也还真是低。

要说真好用的 GPU 计算，其实是低复杂度，高数据量的批处理 …… 但好像除了游戏图形渲染流水线之外，我还真没见过多少应用场合是兼具计算简单（线形复杂度）和数据量傻大（没有数据结构）的，物理引擎上GPU加速也是计算能力先成为瓶颈（向量机在随机访问上天然弱气，于是有些暴力重复的部分）。呒，视频编码解码算一部分 …… 这样说来也许 Haswell 是为了解决 4K 视频问题了。这也许是个好解释？

作者: shinkamui 时间: 2013-4-30 14:49

引用:

原帖由 FXCarl 于 2013-4-30 13:07 发表

…… 总觉得异构计算的需求属于很微妙的领域。目前绝大多数抱怨速度不够快的应用场合对速度的容忍都很宽裕。譬如 Final Cut Pro 这种东西，出个片子总归几个小时，能提升数倍显然不错，但是此时又对数据拷贝多消 ...

物理计算用gpu的主要提升部分来自于碰撞检测，这个可以高度并行，而且有大量数据可以线程间共享，因此非常适合gpgpu。目前的瓶颈仍然是io。存储的数据结构是主要优化方向之一，包括在全局显存和共享缓存。另外就是建立良好的领域搜索结构，让访问不要那么随机。无论大量刚体还是流体，柔体，都是一样。

作者: qyqgpower 时间: 2013-4-30 20:14

已经有消息称这块EDRAM是CPU逻辑部分和GPU部分共用的了。
IBM的主机用的POWER7就有超大内嵌缓存，Intel说不定也会在Xeon上加这个

作者: 倍舒爽 时间: 2013-4-30 20:45

posted by wap, platform: iPhone

引用:

原帖由 @qyqgpower 于 2013-4-30 20:14 发表
已经有消息称这块EDRAM是CPU逻辑部分和GPU部分共用的了。
IBM的主机用的POWER7就有超大内嵌缓存，Intel说不定也会在Xeon上加这个

是啊，这么大的代价，按道理不可能光为gpu服务的。

作者: GYNECOMASTiA 时间: 2013-4-30 20:51

个个都是硬件装家，这样的帖子还真是欢乐

作者: boboqpai 时间: 2013-4-30 21:22

引用:

原帖由 倍舒爽 于 2013-4-30 20:45 发表
posted by wap, platform: iPhone

是啊，这么大的代价，按道理不可能光为gpu服务的。

他是指intel的haswell，720等进一步消息吧。

作者: 倍舒爽 时间: 2013-4-30 21:26

引用:

原帖由 boboqpai 于 2013-4-30 21:22 发表

他是指intel的haswell，720等进一步消息吧。

急啥呢。。
偶知道当然指haswell，不过这也确实加大了720的esram活用可能性。。

作者: boboqpai 时间: 2013-4-30 21:26

引用:

原帖由 FXCarl 于 2013-4-30 13:07 发表

…… 总觉得异构计算的需求属于很微妙的领域。目前绝大多数抱怨速度不够快的应用场合对速度的容忍都很宽裕。譬如 Final Cut Pro 这种东西，出个片子总归几个小时，能提升数倍显然不错，但是此时又对数据拷贝多消 ...

这也矛盾，edram只会用在笔记本，而且只有搭载intel最强核显的cpu才会有edram，其他的没有。

作者: shinkamui 时间: 2013-4-30 21:33

引用:

原帖由 boboqpai 于 2013-4-30 21:26 发表

这也矛盾，edram只会用在笔记本，而且只有搭载intel最强核显的cpu才会有edram，其他的没有。

台机人家都用独立卡去了，谁用intel核显啊。只有本子只用核显的没办法了只好增强一点。另外不排除intel做实验，反正买最高配核显的通常是不差钱的主。

作者: 倍舒爽 时间: 2013-4-30 21:36

引用:

原帖由 boboqpai 于 2013-4-30 21:26 发表

这也矛盾，edram只会用在笔记本，而且只有搭载intel最强核显的cpu才会有edram，其他的没有。

什么？？
求来源，只是笔记本用edram而已？？？
那之前确白yy！！

作者: boboqpai 时间: 2013-4-30 21:43

引用:

原帖由 倍舒爽 于 2013-4-30 21:36 发表

什么？？
求来源，只是笔记本用edram而已？？？
那之前确白yy！！

这个搜就可以了，到处是。

作者: 动感操人 时间: 2013-4-30 22:00

posted by wap, platform: ZTE (U985)

不明觉厉

作者: FXCarl 时间: 2013-4-30 23:35

我看到了 …… 驱动之家有，GT3e 只有移动版 i7 独享 …… 桌面全部是 GT2 ～

作者: 倍舒爽 时间: 2013-5-1 02:43

posted by wap, platform: iPhone

引用:

原帖由 @FXCarl 于 2013-4-30 23:35 发表
我看到了 …… 驱动之家有，GT3e 只有移动版 i7 独享 …… 桌面全部是 GT2 ～

其实如果给非编带来巨大效率转变的话还是很实际的。
比如婚礼跟拍时，几个人一般都带着器材跑整天，我一直觉得如果能在当天酒席开始时就能在酒楼的大屏上播放一个当天的demo，那肯定可以大大加强客户的好感

普通的笔记本管你是什么星人干这个还是慢，1080p／50p蛮欺负人的，demo最重要是精简深刻，必须要堆来福度，来幅度实际就是就是渲染和预览效率，派人回工作室弄吗，现场又会少一个人，不实际…
有了这玩意甚至可以边拍边弄，原来4人团队做的事现在3人就可

作者: KoeiSangokushi 时间: 2013-5-1 05:06

posted by wap, platform: iPhone

引用:

原帖由 @倍舒爽于 2013-5-1 02:43 发表
posted by wap, platform: iPhone

其实如果给非编带来巨大效率转变的话还是很实际的。
比如婚礼跟拍时，几个人一般都带着器材跑整天，我一直觉得如果能在当天酒席开始时就能在酒楼的大屏上播放一个当天的demo，那肯 ...

别忘了这回次世代家用机用的都是上网本U

作者: fgfggha 时间: 2013-5-2 18:09

posted by wap, platform: Android

surface 第二代秒杀WIIU的节奏

作者: KoeiSangokushi 时间: 2013-5-2 18:36

posted by wap, platform: Chrome

引用:

原帖由 @fgfggha 于 2013-5-2 18:09 发表
posted by wap, platform: Android

surface 第二代秒杀WIIU的节奏

秒不了，顶多秒PSV
WII U等第一方游戏出来后还是大有可为的

作者: polyhedron 时间: 2013-5-3 00:40

引用:

原帖由 KoeiSangokushi 于 2013-5-2 18:36 发表
posted by wap, platform: Chrome

秒不了，顶多秒PSV
WII U等第一方游戏出来后还是大有可为的

surface pro第二代至少硬件上秒wii u。软件上么……

作者: 倍舒爽 时间: 2013-5-3 04:00

posted by wap, platform: iPhone

引用:

原帖由 @KoeiSangokushi 于 2013-5-1 05:06 发表
posted by wap, platform: iPhone

别忘了这回次世代家用机用的都是上网本U

详细些ok？言下之意？

作者: KoeiSangokushi 时间: 2013-5-3 17:51

posted by wap, platform: Chrome

引用:

原帖由 @倍舒爽于 2013-5-3 04:00 发表
posted by wap, platform: iPhone

详细些ok？言下之意？

没有更多的意思，只是针对你引用的那个人的“GT3e 只有移动版 i7 独享 …… 桌面全部是 GT2”的那句话

作者: FXCarl 时间: 2013-5-4 00:00

回头看了一眼，突然觉得看起来有种拍到马蹄上的感觉了 ……

作者: ylgtx 时间: 2013-5-4 18:44

Haswell拨的动Kaveri吗？
intel的集显往往实际游戏水平比相同跑分的低端独显差了老远，功夫全花在优化跑分上了

作者: 风间星魂 时间: 2013-5-22 16:20

intel驱动跑分优化还行。性能。。。。。。

欢迎光临 TGFC Lifestyle (http://bbs.tgfcer.com/)