魔神至尊
请叫我奶爸
当笔者和同事还在沉迷于DX7和DX8游戏不能自拔的时候
当读者们还在为DX9和DX10的画面/性能争论不休的时候
当NVIDIA鼓吹DX10.1无用论却又低调的加入支持的时候
新一代DX11顶着诸多增益魔法踩着华丽的光环从天而降
双倍规格六屏输出21.5亿晶体管的HD5870显卡横空出世
经济危机的阴云已然散去,"显卡危机"也将成为过去式
第一章/第一节 革命性的DirectX 10回顾
首款DX10游戏《失落星球》DX9对比DX10,牺牲一半速度,画面改进有限
屈指可数的DX10.1游戏
DX10.1虽然画面方面改进有限,但运行速度确实加快了
虚幻3是最高效最成功的引擎,Cryengine只是画面最强的引擎
由于统一渲染架构的特性,Shader Moder 5.0是完全针对流处理器而设定的,所有类型的着色器,如:像素、顶点、几何、计算、Hull和Domaim(位于Tessellator前后)都将从新指令集中获益。
如果一个软件能够对多核心多线程处理器进行优化的话,那么在使用双核或四核处理器时,其运行效率将会提升2-4倍,遗憾的是如今的游戏都无法支持多核处理。
通过大量的游戏性能测试来看,GPU占绝对主导,而CPU只是考验单核效能,通过对CPU极限超频可以让游戏性能提高不少,但使用四核或者带HT技术的“八核”处理器几乎不会有任何性能提升。在多核成为大势所趋的情况下大量CPU资源被白白浪费,瓶颈可能依然卡在CPU上面。
细致的纹理效果
上图展示的是图像通过BC6H压缩模式进行压缩的前后效果对比图。其中左边的图像为原始图像,中间的是在压缩过程中损失的一些细节,而右边的就是压缩后的图像。可以看出,从画质上来看几乎没有损失(肉眼看不出),但是却可以大幅度降低显存的占用。
这幅图展示的是BC7针对LDR纹理的压缩与传统的BC3纹理压缩对比。可以看出传统的BC3纹理压缩损失了大量的纹理细节,压缩之后的效果也很不好。而采用BC7算法压缩后的纹理,丢失的细节很少,效果也非常好,这就是改进纹理压缩的魅力。
第二章/第一节 DirectCompute与Stream/CUDA/OpenCL的关系
提起GPU通用计算,自然会让人想到NVIDIA的CUDA、ATI的Stream以及开放式的OpenCL标准,再加上微软推出的DirectCompute,四种技术标准令人眼花缭乱,他们之间的竞争与从属关系也比较模糊。
首先我们来明确一下概念:
OpenCL类似于OpenGL,是由整个业界共同制定的开放式标准,能够对硬件底层直接进行操作,相对来说比较灵活,也很强大,但开发难度较高;
DirectCompute类似于DirectX,是由微软主导的通用计算API,与Windows集成并偏向于消费领域,在易用性和兼容性方面做得更出色一些;
CUDA和Stream更像是图形架构或并行计算架构,NVIDIA和ATI对自己的GPU架构自然最了解,因此会提供相应的驱动、开发包甚至是现成的应用程序,通过半开放的形式授权给程序员使用。
ATI Stream示意图
其中ATI最先提出GPGPU的概念,Folding@Home和AVIVO是当年的代表作,但在被AMD收购后GPGPU理念搁浅;此后NVIDIA后来者居上,首次将CUDA平台推向市场,在这方面投入了很大的精力,四处寻求合作伙伴的支持,并希望CUDA能够成为通用计算的标准开发平台。
NVIDIA CUDA示意图
在NVIDIA大力推广CUDA之初,由于OpenCL和DirectCompute标准尚未定型,NVIDIA不得不自己开发一套SDK来为程序员服务,这套基于C语言的开发平台为半开放式标准,只能用于NVIDIA自家GPU,因此并未得到业界的认可,AMD认为CUDA是封闭式标准,不会有多少前途,AMD自家的Stream虽然是完全开放的,但由于资源有限,对程序员帮助不大,因此未能得到大量使用。
OpenCL一经提出就受到业界的大力支持
于是在去年由苹果牵头,以苹果OpenCL草案为基础,联合业界各大企业共同完成了标准制定工作。随后Khronos Group成立相关工作组,工作组的26个成员来自各行各业,且都是各自领域的领导者,具体包括3DLABS、Activision Blizzard、AMD、苹果、ARM、Barco、博通、Codeplay、EA、爱立信、飞思卡尔、HI、IBM、Intel、Imagination、Kestrel Institute、摩托罗拉、Movidia、诺基亚、NVIDIA、QNX、RapidMind、三星、Seaweed、TAKUMI、德州仪器、瑞典于默奥大学。
OpenCL标准一经成立,IT三巨头Intel、NVIDIA和AMD都争先恐后的加入支持。AMD由于自家Stream推广不利、支持OpenCL并不意外;Intel即将发布的Larrbee GPU一大卖点就是强大的计算能力,支持OpenCL有百利而无一害;NVIDIA虽然在大力推广CUDA开发平台,但无奈势单力薄,小有所成但前途未卜,OpenCL虽然与CUDA C语言有交集但并不冲突,是相辅相成的互补关系,NVIDIA自然也大力支持。
OpenCL组织中唯独微软不在其列,微软有自己的如意算盘。经过多年的发展,DirectX凭借快速更新换代策略、相对轻松的开发与移植方式,在与OpenGL的交战中已全面占据上风,OpenGL的传统强项——专业绘图领域也在被DirectX不断的蚕食。因此微软打算用相同的策略来对抗尚未站住根基的OpenCL,于是DirectCompute诞生了。
就如同GPU能同时支持DirectX与OpenGL那样,NVIDIA和AMD对DirectCompute和OpenCL都提供了无差别支持,真正的GPU通用计算之战,不在CUDA与Stream之间,而是OpenCL与DirectCompute之争,DX11时代才刚刚开始……
第二章/第二节 DirectCompute 10/11版本间的区别
虽说DirectCompute标准才刚刚问世,但目前已经有了三个版本,它与微软的DirectX版本是一一对应的(10.0、10.1、11.0),毕竟DirectCompute目前还只是DirectX的一个子集,羽翼未丰之前难以自立门户。
简单的拖曳操作,就能使用Win7内置的GPU视频转码程序
10月份即将发布的Windows 7操作系统将会内置DX11及DirectCompute,对GPU通用计算提供原生支持。Win7对GPU的要求放得很宽,只要支持DX10即可,当然DX10.1更好DX11最完美。
DirectCompute是与DX11一同发布的,因此相比“过去式”的10.0版,DirectCompute 11作出的改进比较多:
可以看出,同DX11类似,DirectCompute 11的改进主要集中在降低系统资源开销与提高效能方面,也就是说新的DX11显卡会有更强的通用计算效能。而旧的DX10显卡虽然会慢一些,但实现的功能也不会差多少,如此一来就完美的解决的兼容性问题,也能很好的凸出新显卡的优势,用户和厂商皆大欢喜。
虽然DirectCompute的主要任务是用来处理非图形运算,但很多时候它还是需要做一些图形相关的擦边球任务、或者是辅助图形渲染,比如说视频数据处理、物理运算、人工智能等,这些操作最终还是需要通过显卡输出至屏幕,因此计算着色器会经常与像素着色器打交道,当像素着色器使用到计算着色器的新特性之后,就会衍生出一些意想不到的新特效。
接下来就为大家介绍一些属于DirectCompute 11的新技术,当然它们也属于DX11的范畴。
烟雾、火焰、流水、玻璃、树叶、栅栏、头发……游戏中所出现的半透明物体数不胜数,程序员很难给这些物体设计一个固定的模型,它们不规则、随机的特性决定了单纯依靠传统的像素着色或者纹理贴图都是行不通的,因此这类物体有了一个新的称呼——Order Independent Transparency (OIT,顺序无关透明化)。
传统的透明混合效果很差
上面的视频就是由HD5870实时演算出来的,机器人本身就是半透明的骨架,为其附加一层厚厚的外壳后,即便进行剧烈运动,性能也没有多少损失。DirectCompute 11不但让半透明物体的程序设计变得轻松,而且实时渲染效能也大幅提升,可以预见未来的DX11游戏将会大量使用半透明效果。
就像大家通过数码相机拍完照片后需要经过PS处理一样,3D模型在GPU内部渲染完成后也会经过后端处理才会显示在屏幕上,这一过程叫做“Render Post-Processing”(渲染后端处理),常见的如“边缘侦测与抗锯齿、各向异性过滤、景深、运动模糊、色彩映射、滤波、锐化”等一些列特效都是在这一阶段加上去的。
GPU有专门负责渲染后端处理的模块,叫做“Render Back-Ends”(ROPs),也就是通常所说的光栅单元,这个模块位于流处理器与显存控制器之间,也就是说它渲染完毕后将会把数据直接输出到显存与屏幕。
第二章/第四节 DirectCompute 11新特效:渲染后端处理之景深
在DX10时代,光栅单元的任务量是很重的,如果大量使用后端处理特效的话,很容易出现像素着色器等待光栅单元的情况出现。所以很多DX10游戏的GPU负载还不如DX9C游戏就不足为怪了。而DX11则通过一个巧妙的方式降低了光栅单元的负担,确保流处理器和光栅单元能够协同工作,原理依然是使用计算着色器。
各种后端处理特效的最终效果虽然千差万别,但它们大多数都有一个共同的特点,那就是需要对比相邻位置像素或者相邻帧之间像素的差别,然后进行对比与合成。这一拾取动作其实只用一个函数就能完成——Gather4,它使得计算着色器能够越权进行数据采集动作,帮助纹理单元和光栅单元的减轻负担,而且计算着色器的数据采集速度是专用单元的4倍!
DX10版景深处理
具体一点例子,比如DX10级别的运动模糊和景深特效,都是通过几何着色来实现的,通过几何着色控制运动物体的坐标变换与像素监控,或将深度帖图中的纹理信息按照距离拆分到缓冲,然后分为几个不同的视角进行渲染,最后合成完整的图像,实现比DX9C更精确、更流畅的特效。画面效果是更出色了,但几何着色并没有帮助光栅单元做任何事情,数据处理反而翻了好几倍,导致性能下降比较严重。
而通过使用DirectCompute 11中的新指令,后端处理特效可以最大限度的降低显存读写次数、大幅降低光栅单元的负担,当然流处理器将会承担更多的任务(几何着色、计算着色、像素着色),但依然能够保持相对的平衡,不会出现DX10当中GPU资源负载不均的情况。
第二章/第五节 DirectCompute 11新特效:渲染后端处理之高清晰环境光遮蔽
“环境光遮蔽”(Ambient Occlusion,AO)是一种非常复杂的光照技术,通过计算光线在物体上的折射和吸收在受影响位置上渲染出适当的阴影,进一步丰富标准光照渲染器的效果。“屏幕空间环境光遮蔽”(SSAO)就是该技术的一个变种,现已用于《潜行者:晴空》、《火爆狂飙》、《鹰击长空》、《帝国:全面战争》等游戏。
《鹰击长空》支持SSAO和DX10.1
SSAO是DX10.1的一项新特性,通过使用Gather4技术实现更快速、更精确的纹理过滤,虽然DX10.1版Gather4只能处理单一的颜色分量,但依然对处理阴影内核和SSAO挺不错,因为深度缓冲是一个单颜色分量。DX10显卡通过更新驱动也能支持SSAO,NVIDIA就在驱动当中提供了SSAO选项,但由于性能损失很大默认情况下关闭的。
晴空也支持SSAO,而STALKER新版则支持HDAO,效果更上一层楼
在DX11时代AO效果又有了更优秀的版本,AMD称之为High Definition Ambient Occlusion,简称HDAO,翻译为高清晰环境光遮蔽。这是一种基于纹理的阴影技术,能提供比普通环境光遮蔽更好的效果,同时保证系统性能足够好。
下面就来看看AMD自己对HDAO技术的演示Demo:
首先是关闭HDAO的效果,帧率188FPS
打开HDAO,阴影真实了很多(尤其是坦克履带),但帧率骤降到20FPS以下
最后,使用DirectCompute 11技术,在打开HDAO的模式下渲染正率提升至44FPS,性能提升两倍以上,基本可以保证游戏流畅度。
DX11大作《异形大战铁血战士》将会大量使用HDAO特效。
Tessellation技术让模型变得更加细腻
2001年7月 西雅图 ATI无疑成为了Meltdown2001的主角
原始模型和经过N-Patch处理之后的效果
● TruForm技术的BUG:
TruForm的好处是效率会比位移贴图高,以极低的资源消耗实现极佳的显示效果。不过呢,这个技术比较适合于海豚、赛车等表面为曲面的模型上,而如果这个技术应用在坦克等不需要做曲面化的模型上的时候,效果就会变得相当的滑稽。
英雄萨姆中枪械模型发生变形现象(不该圆滑的表面被圆滑)
CS中人物模型变成了“胖子”(人体又圆又胖)
应用了Tessellation技术的XBOX360游戏画面
R600核心架构图
基本的顶点模型,最终生成效果很幼稚
经过Tessellation智能拆嵌之后,模型精细了很多
拆嵌后再辅以各种阴影及着色效果,从而以很小的代价达到CG级别画面
HD3000/HD4000继续支持Tessellation
Tessellation能够同时加强地形和人物皮肤细节
等到DX11正式接纳Tessellation时,AMD已经是第六代技术了,真不容易
让人印象深刻的雪山背景,这就是AMD与DICE合作开发的Ruby Demo
《异形大战铁血战士》里面的异形
点击放大查看模型细节的改进
使用Tessellation替代传统的凹凸贴图,层次感更强
《科林麦克雷:尘埃2》中Tessellation技术几乎是无处不在
AMD提供给媒体的5款DX11游戏Demo
最微软最新的2009年8月DirectX更新包中,就包含了对DX11的支持
在2560分辨率下运行AVP Demo
Frostbite2与Tessellation有较深的渊源,但Tessellation只是DX11的一小部分,Frostbite2除此之外将会使用到很多DirectCompute 11当中的新指令来提高游戏运行效率,对于游戏引擎来说高效率远比高画质来的重要,画面只是展示技术的手段,效率才是吸引游戏开放商的利器,DX11在这两方面都有很大的优势,因此备受业界关注。
但遗憾的是,Andersson透露《战地:叛逆连队2》只会采用Frostbite 1.X引擎,叛逆连队2支持DX10.0、10.1、PS3、X360,不会采用之前广为流传的DX11 API,因为DX11只属于Frostbite2引擎。
不可思议的地形细节
没有丝毫遮蔽的宏大场景
首颗支持DirectX 11的GPU;
提供最强DX9/10/10.1性能;
为最新的OpenCL 1.0和DirectCompute 11通用计算API提供优化支持;
在功耗不变的情况下实现规格和性能翻倍;
支持3屏甚至6屏超大画面输出。
以上是ATI对RV870核心的设计目标,我们来看看到底是如何做到的。
第五章/第一节 RV870核心架构图
自从DX10时代以来,ATI和NVIDIA双方的GPU架构就没有多大变化,NVIDIA的G9X和GT200都沿用了G80的MIMD(多指令多数据流)标量流处理器架构,而ATI则一直使用R600上面的SIMD(单指令多数据流)超标量流处理器架构。
RV870的核心架构与R600、RV670和RV770没有本质区别,它是一颗用新工艺制造的、用大量晶体管堆积而成的超高规格GPU。
RV770核心架构图
RV870相比RV770/RV790除了流处理器数量之外,纹理单元和光栅单元数量也全面翻倍。与同频率的HD4890相比,HD5870的理论数据正好是前者的两倍。
RV870的流处理器部分
左右各10组SIMD阵列,每组SIMD绑定4个纹理单元及缓存;
每组SIMD阵列当中拥有16个线程处理器;
每个线程处理器中包括5个流处理器。
这样的结构与双核CPU十分相似,两颗“核心”各自独立,独享L1、共享L2和内存控制器等其他总线模块,而两颗“核心”之间则通过专用的数据共享及请求总线通信。那为什么不把流处理器想以前那样设计成为一个整体而要分为两个模块呢?
RV770的流处理器布局
AMD绘图芯片研发高级总监王启尚指出,RV870核心拥有规模空前的21.5亿个晶体管,芯片设计及制造难度都相当高,如果把最复杂的流处理器部分拆分为几个模块的话,复杂度就会大大降低,这就能极大的加快研发进度,并一定程度上提高芯片良品率。
第五章/第四节 RV870流处理器规格特性解析
RV870的Thread Processor结构图
纹理带宽提升:每秒可完成680亿次双线性过滤,2720亿次32bit纹理拾取
一级缓存:容量160KB,带宽1TB/s
二级缓存:容量512KB,带宽435GB/s
新的DX11特性:支持16kx16k纹理,新的BC6/7 HDR纹理压缩算法
除了DX11的新特性外,RV870在纹理单元部分的改进可以让所有游戏受益,它可以支持完美无角度的各向异性纹理过滤,而性能衰减幅度与之前的AF算法一致,通过理想的细节度调整确保更高的纹理贴图质量。
● 通用计算部分:
同纹理单元类似,RV870的光栅单元数量也是全面翻倍,因此抗锯齿性能同比提升一倍。除此之外,还有不少改进:
纹理单元可直接读取光栅单元中的色彩缓存数据
CFAA(可编程过滤抗锯齿)性能大幅提升
采样率提升,高倍AA效能改进
有能力直接提供最高画质的SSAA(超级采样抗锯齿)
AAA(自适应抗锯齿)和CFAA可以与SSAA完美兼容
根据AMD官方提供的数据来看,HD5870在开启8xAA模式后,性能相比4xAA下降幅度非常小,而对手单核最强的GTX285则在8xAA模式下性能损失非常大。RV870翻倍的光栅单元数量及改进的算法功不可没!
双Dual-Link DVI的配置已经沿用好多年没变过了
单纯提升分辨率达到了液晶面板的极限
幻日系列只有两个DVI,但却是完美的三头输出
终于,Matrox在之前DualHead2Go的基础上,成功的研发了三头输出的TripleHead2Go,中文名称为3D环幕仪。Matrox带来的3D环幕仪能够像变魔术一样让一个显卡的输出口扩展为三个,由此实现三屏幕环幕游戏或者是四屏幕专业作图显示。
3D环幕技术玩帝国时代III
千万不要以为TripleHead2Go单纯的比DualHead2Go多了一路输出而已!TripleHead2Go是一款极具创意的全新产品,它能够把三个显示器模拟成为一个超宽屏幕的显示器,从而让游戏画面能扩展输出至全部的三个屏幕,而多块显卡虽然理论上能支持数十个屏幕,但大多数游戏都无法支持多屏输出。
TripleHead2Go的设计理念很有意思,但缺点也很明显,它只能通过VGA模拟输出,仅能支持1280x1024的普通显示器,没法支持更高分辨率的显示器。因为它的功能只是将显卡的一个输出接口拆分成三个接口,这样三个接口的总分辨率不可能超过Dual-Link DVI 2560*1600=409600的像素限制,而1280*1024*3=3932160则刚刚好,再高一点点都不行。
再者,这个显示盒也价值不菲,驱动设置更新比较麻烦,还有跟游戏也存在一些兼容性问题。最主要的问题还是无法兼容中高分辨率的显示器,因此未能成为主流。
当Matrox的TripleHead2Go快要被遗忘的时候,ATI拿出了惊人的设计方案,在首颗DX11 GPU RV870当中直接集成了一个6通道的显示控制器——无需任何外接芯片或者输出方案,而且这六个通道都能支持2560x1600分辨率的10bit色显示!
这项技术ATI称之为“Eyefinity”,最多可以通过DisplayPort输出六个屏幕,不过本次发布的HD5870仅能支持三个屏幕,是ATI故意限制了输出吗?
其实是Dual-Link DVI的问题,无论如何它都要占据两个显示通道。但市售30寸显示器标配就是Dual-Link DVI,HD5870为了保证兼容性和易用性,设计了两个DVI接口,导致最多只能实现三屏输出。不过三屏输出对于游戏玩家来说刚好合适,四屏和六屏都有些别扭。
确实有六屏输出的需要,那么可以购买HD5870 Eyefinety6版本,它直接提供了6个DP接口,搭配响应的显示器或者转接头,就能实现完美的六屏输出。
目前,一块支持4口DP输出的2D专业显卡售价就高达6000多人民币,那史上最强的首款DX11游戏显卡支持6口DP输出的话相信也不会便宜,但也不会那么离谱。
有了强大而弹性的显示控制器以及ATI Eyefinity技术,HD5870在连接多显示器的时候也很方便甚至随意,单卡的时候可以按需要排列最多六台不同规格的显示器,四卡并行则最多能支持24台显示器组成一个宽广的显示墙。
竖排或横排平放三台显示器,这是最常见的应用 四台或者六台的排列组合形式就太多了
6口版本6屏输出的输出形式组合
普通4口版本3屏输出输出接口的组合形式
Eyefinity技术已经被完全整合在了催化剂驱动当中,ATI的HydraVision桌面管理器从此变得更加强大。多屏显示的设置既方便又灵活,我们只要根据需要将几台显示器按照排列顺序绑定在一起,就能实现各种奇怪的分辨率。
然后,只要游戏能够支持非标准宽屏分辨率的话,就能将游戏画面横向或者纵向扩充至所有的显示器,但如果游戏不支持的话,画面将会被拉升。经过笔者的实际测试来看,只有较老的显示器不支持超宽屏显示,较新的游戏一般都不会有问题。
● 飞行模拟游戏:
● 赛车游戏:
● FPS游戏:
跑Crysis Benchmark的效果
魔兽世界,铁炉堡一览无余
极品飞车13,道路两旁尽收眼底
FarCry2广袤的大草原
Google Earth实际效果图
我们测试过的众多游戏对三屏的支持都非常好,只有街霸4有点问题,街霸4虽然能支持超宽分辨率,但它的纵横比其实是固定的,当横向尺寸固定扩充三倍之后,纵向尺寸就会相应裁剪,由此导致实际显示的画面不但没有增多反而减少了。
而其他所有的游戏,两边显示器所显示的画面,完全就是但显示器看不到的景色,超宽的视角对于任何类型的游戏都能起到很好的辅助作用。
第七章/第一节 AMD官方HD5870高清晰美图大赏
首先我们来看一组AMD官方提供的HD5870显卡高清晰、多角度艺术照片,分辨率均为2560,很多都可以收藏当作桌面壁纸(没打Logo):
HD5870显卡的设计风格不同与以前的任何一块A卡,色调搭配为黑里透红,看上去更像是一块专业显卡,而不是民用的游戏显卡。下面为我们泡泡实拍的测试样卡照片:
黑色的塑料外壳为磨砂设计,手感不错
背面没有任何芯片,但也安装了金属背板,起到加固并辅助散热的作用
末端的开口看上去很像电源接口,其实是涡轮风扇的辅助进风口
输出接口异常丰富,在传统的两个Dual-Link DVI接口之外,还安置了一个DisplayPort和一个HDMI接口。HD5870是继幻日之后,第二款能够提供三头输出的消费级显卡,在这四个数字接口中,最多可以同时使用其中的任何三个,因此最常见的连接方法就是两个DVI加上DP,可以同时输出三个2560x1600的超高分辨率。
由于四个输出接口占据了较多的位置,导致散热器出风口偏小,因此HD5870在正上方也设计了排风口,确保散热器效能不会降低,但这样做会导致一半的热风未能吹到机箱之外,加重了系统的整体散热负担,实际上GTX295也迫不得采用了这种设计。
体积上,HD5870的长宽高都与HD4870X和GTX295完全相等,都是双槽设计
热管+铝质散热片+涡轮风扇,一体式散热设计
密密麻麻的元件再现原厂卡风范
RV870核心采用斜45°封装,防止散热器压坏边角
三星0.5ns GDDR5颗粒,32Mx32颗粒,8颗组成1GB 256Bit的规格
与N卡相比,A卡在做工用料方面一直都以奢华而著称,超强的数字供电让NFan看着都眼红,此次HD5870的整卡最高功耗为188W,甚至比HD4890还要低2W,但供电部分的设计依然一丝不苟。
TDP下降,两个6Pin供电接口就够用了
核心供电主控芯片:VT1165MF
GPU核心供电主控芯片为VT1165MF,它最多可以支持六相供电,此处只设计了四相,预留了一相空焊位。此前绝大多数数字供电显卡的核心主控都是VT1165MF,比如HD2900XT、HD4870、4890、GTX280等。
核心供电为四相,使用了一个连体四胞胎电感,MOS为四颗VT1157SF
核心I/O供电:VT1157SF
显存供电:两颗VT243WF
第八章 显卡性能测试
40nm工艺、21.5亿晶体管、1600个流处理器、六屏DP输出、第一款DX11显卡——这就是RV870核心Radeon HD5870显卡给我们带来的恐怖数字。HD5870荣登最强单核心显卡宝座已毫无悬念,那它能否击败自家上代双核心的HD4870X2,撼动对手GTX295的王者地位呢?
第八章/第一节 顶级测试平台配置
PCPOP.COM评测室
硬件系统配置
处理器
Intel Core i7 975
(3.33GHz L3=8MB 四核八线程)
主 板
MSI X58 Eclipse
显 卡
HD5870 1GB (850/4800MHz) HD4870X2 2GB (750/3600MHz)
HD4890 1GB (850/3900MHz) GTX295 1792MB (576/1242/1998MHz) GTX285 1GB (648/1476/2484MHz)
内 存
CORSAIR Dominator TWIN2X2048-10000C5DF
DDR3-1600(9-9-9-24-1T)
硬 盘
日立1TB
电 源
海盗船 1000W
软件系统配置
操作系统
Windows 7 RTM 7600.16385 64Bit
DirectX
11
显示驱动
NVIDIA Forceware 190.89 Beta
ATI Catalyst 9.9
● 顶级平台——Core i7 975
i7 975是目前Intel最强的CPU,主频比965更高,达到了3.33GHz,45nm High-K工艺制造,拥有8MB三级缓存,还支持超线程技术(四核八线程),这样即便是双高端显卡系统也不会受制于处理器瓶颈。
● 顶级平台——DELL3007 显示器
既然是顶级卡,我们就要用最顶级玩家的使用环境来测试,我们选定分辨率为1920×1200(24寸宽)和2560×1600(30寸宽)两种高端玩家最常用的分辨率做测试。
所有的游戏默认都开启最高特效,其中包括至少4xAA,如果支持8xAA的话也将进行测试,如果游戏内置AF支持的话,就直接调至最高的16AF。
第八章/第二节 DX9C理论性能测试:3DMark06
游戏介绍:3DMark06作为DX9C权威的理论测试工具,包括了两个SM2.0测试和两个SM3.0测试场景,基本上达到了DX9C的画面最高境界。虽然HD5870的发布宣告了DX11时代的来临,但考虑到至今仍有不少新游戏依然采用DX9C引擎,加入3DMark06的测试结果对于很多主流游戏都有参考价值的。
画面设置:如今3DMark06已经难不倒高端显卡了,高端显卡在3DMark06中难分高下,所以我们只能最大程度的提高它对系统的要求,比如说提高分辨率开启抗锯齿等。所以我们选定了在2560×1600最高分辨率开启4AA16AF以及最高的8AA16AF模式下,测试其总分和SM3.0成绩。
虽然HD5870的理论核心渲染能力要比HD4870X2更强,但毕竟显存带宽和容量方面比较吃亏,此消彼长之下HD5870的成绩能够如此接近于HD4870X2,对于玩家来说已经是个惊喜了。
作为同时代的双核心显卡,GTX295的综合实力要强于HD4870X2,所以HD5870想要超越它确实比较艰难。但在最高的8xMSAA模式下,GTX295败给了HD4870X2和HD5870,通过成绩分析来看GTX295的SM3.0性能是个软肋,看来是HDR+AA效能较低所致。
第八章/第三节 DX10理论性能测试:3DMark Vantage
游戏介绍:3DMark Vantage所使用的全新引擎在DX10特效方面和《孤岛危机》不相上下,但3DMark不是游戏,它不用考虑场景运行流畅度的问题,因此Vantage在特效的使用方面比Crysis更加大胆,“滥用”各种消耗资源的特效导致Vantage对显卡的要求空前高涨,号称“显卡危机”的Crysis也不得不甘拜下风。
画面设置:3DMark Vantage中直接内置了四种模式,分别为Extreme(旗舰级)、High(高端级)、Performance(性能级)和Entry(入门级),只有在这四种模式下才能跑出总分,如果自定义模式就只能得到子项目分数了。我们为这次的顶级卡对决选择了最高的Extreme模式,它其实就是最高画质1920x1200分辨率再加上4AA16AF模式。
测试方法:N卡支持PhysX,在CPU测试子项中成绩会翻几倍,最终总成绩会提高不少,由于本次测试主要考验显卡的渲染性能,因此在N卡驱动中关闭物理加速,避免CPU成绩影响总成绩。
此前的诸多测试表明,3DMark Vantage比较偏重与Shader性能,显存方面的影响并不大,于是频率更高的HD5870终于完成了对HD4870X2的超越。
但GTX295依然更胜一筹,两颗GT200核心加起来共有28亿晶体管,跟21亿晶体管的RV870不是一个级别,有如此性能表现并不意外。
第八章/第四节 DX10渲染性能测试:3DMark Vantage子项
测试方法:3DMark Vantage除了常规的四个GPU和CPU测试场景外,还提供了六个特性测试项目,每一项都针对特定的图形硬件功能,并将其推向极限。与图形测试的大量特效、技术和内容不同,填充率测试不影响3DMark Vantage总分和GPU子分数,也不受预设值的影响,只考验GPU的实际性能可否达到理论值。
● 多重纹理填充:将纹理坐标数值通过旋转、缩放的形式填充到整个屏幕
● 色彩填充:16Bit浮点格式HDR颜色反复绘制通过Alpha通道直接写入渲染目标
● 视察映射贴图:高度图+全局光照渲染层次感鲜明的物体表面
● GPU加速布料:通过顶点着色和几何着色配合绘制大量变换位置的顶点坐标
● GPU独立渲染大量相互碰撞的粒子:将顶点着色压到极限的考验方法
● 噪声动态生成纹理和体积云雾:纯像素着色计算噪声函数
以上纯理论性能测试成绩仅供参考,并不能代表实际游戏性能。
游戏介绍:Crysis(孤岛危机)无疑是现阶段对电脑配置要求最高的PC游戏大作。Crysis的游戏画面达到了当前PC系统所能承受的极限,超越了次世代平台和之前所有的PC游戏。Crysis还有个资料片Warhead,使用了相同的引擎,只是多了一个关卡,因此我们还是使用原版做测试。
画面设置:Crysis只有在最高的VeryHigh模式下才是DX10效果,但此前所有高端显卡都只能在低分辨率下才敢开启DX10模式,如今HD5870单卡性能都可以直逼上代双核心显卡,那么能否在高分辨率下征服Crysis呢?测试分辨率选择了1920x1200和2560x1600两种,都开VeryHigh,分为不开AA和4xAA两种模式。
测试方法:Crysis内置了CPU和GPU两个测试程序,我们使用GPU测试程序,这个程序会自动切换地图内的全岛风景,得到稳定的平均FPS值。
在1920全高清分辨率下,无论是否开AA,HD5870都能保证30帧的最低要求,这是首款能够流畅运行Crysis的单核心显卡,有“显卡危机”之称的DX10游戏终于被DX11显卡所征服!
提高至2560分辨率后,此时对显存的要求更加苛刻HD5870与HD4870X2的差距被缩小。整体来看GTX295的性能还是要高于两款A卡的,但在开启4AA的模式下三者处于同一水准,看来还是A卡的抗锯齿效能更高一筹。
游戏介绍:《冲突世界》将带领玩家返回著名的冷战时期,玩家每一个决定均影响游戏中人物和情节。可于游戏中感受不一样的团队精神,与队友于阴森恐怖的战场上一同作战。《苏联进攻》是其最新的资料片,收录全新角色、扮演苏联军队、10套新影片和全新多人联机地图等等。
画面设置:《冲突世界》是首批DX10游戏之一,采用了自行研发的MassTech引擎,支持多种当前的主流显示特效,如容积云,景深效果,软阴影等,光照系统也表现出色,尤其是半透明的容积云特效营造出了十分逼真的户外场景,物理加速结合体积光照渲染出了最逼真的爆炸效果。
测试方法:内置Benchmark是一段非常华丽的过场动画作为测试程序,最终得出最大、最小和平均FPS,测试结果非常精确。WIC最高支持4AA,因此我们只测试4AA模式,分为1920和2560两个分辨率。
第八章/第八节 DX10.1游戏:《鹰击长空》
游戏介绍:《鹰击长空》由Ubisoft旗下的Bucharest Studio工作室所研发制作而成,以汤姆克兰西最擅长的近现代国际冲突为背景,加上现代化的军事武器,和五角大厦不愿证实的开发中的先进武器,交织出最激烈的高科技攻防战。而《鹰击长空》也脱离前面几项作品的框架,将战争从地面拉拔到空中,享受广大无界限的战斗空间。
画面设置:《鹰击长空》直接内置了对DX10和DX10.1的支持,它会自动检测显卡最高能支持的级别。通过此前的测试来看DX10.1并不会让画质变得更高,但的确能够让游戏跑得更快。我们使用1920和2560两种分辨率,4AA和8AA两种模式进行测试。
测试方法:游戏自带Benchmark,A卡开DX10.1模式,N卡开不了。
从4xAA到8xAA,N卡的性能下降幅度明显要比A卡高,DX10.1在MSAA方面的改进让A卡受益颇多。在2560 8AA这种严酷模式下真正能流畅运行的就只有HD5870了。分辨率越高、抗锯齿精度越大,HD5870的优势就越显著。
第八章/第九节 DX10.1游戏:《潜行者:晴空》
游戏介绍:《S.T.A.L.K.E.R.:晴空》是《S.T.A.L.K.E.R.》的前传资料片,会讲述一个发生在2010年的故事,在前作当中没能体现的创意都被应用在了《晴空》当中。切尔诺贝利的历史、地理特质和基本生活环境都将被一一展现,新作NPC的智能更高,玩家还能扮演NPC的领导者,游戏乐趣更上一层楼。
画面设置:与前作还停留在DX9C的画面特效相比,《晴空》加入了大量DX10特效(神光、柔和粒子、SSAO、动态容积雾、动态浸润表面),让游戏画质全面提升了一个档次。除了支持DX10外,《晴空》还通过一个升级补丁对DX10.1提供了支持,采用了Alpha-to-Coverage技术,对于阳光阴影增加了新的Ultra画质模式,同时会通过DX10.1技术来实现更好的光晕渲染,并使得游戏性能进一步提升。
测试方法:使用官方Benchmark包进行测试,A卡开启DX10.1模式,N卡只能使用DX10模式。分辨率为1920和2560,分为不开AA和4xAA两种模式。
很遗憾HD5870没能超越HD4870X2,但我们可以注意到在不开AA时两者差距较大,但开启AA后性能完全相同,由此可见HD5870确实拥有更强的抗锯齿效能。
GTX295的表现与HD4870X2比较类似,不开AA时性能不错,开AA后下降很明显,2560 4AA下干脆无法完成测试,看来不支持DX10.1确实很吃亏。
值得一提的是,《晴空》对于DX10.1的支持比《鹰击长空》更完美,开启DX10.1不但能够提高性能,还能进一步提升抗锯齿和光影画质,“DX10.1无用论”不攻自破。
游戏介绍:自《孤岛惊魂》系列的版权被UBI购买之后,该公司蒙特利尔分部就已经开始着手开发新作,本作不但开发工作从Crytek转交给UBI,而且游戏的故事背景也与前作毫无关系,游戏的图形和物理引擎由UBI方面完全重新制作。
画面设置:借助于蒙特利尔工作室开发的全新引擎,游戏中将表现出即时的天气与空气效果,所有物体也都因为全新的物理引擎,而显得更加真实。你甚至可以在游戏中看到一处火焰逐渐蔓延,从而将整个草场烧光!而且首次对DX10.1提供支持,虽然我们很难看到。
测试方法:游戏自带Benchmark工具。
在4AA模式下,HD5870和HD4870X2的性能差不多,但在8AA模式下,HD5870超高AA效能的优势就体现出来了。
在顶级的2560 8AA模式下,GTX295因为显存不足已经无法运行完整个测试了,而HD5870则依然保持较高的效能,拉开了与HD4870X2的差距。
测试方法:由于DX9游戏对显卡要求并不高,因此我们直接上最高的2560分辨率进行测试,并开启4AA和8AA两种模式,测试时使用游戏自带Benchmark。
和街霸4类似,极品13开启8AA模式后,A卡的性能下降幅度都很小,而N卡损失惨重,双核心GTX295在4xAA模式下很强大,但8xAA下被轻易超越,的确很遗憾。
HD5870单卡已经表现除了相当强悍的实力,在不少游戏中都能超越此前的单卡双核心之王GTX295。那么同样是组建双卡系统,HD5870交火的性能将会如何呢?
HD5870 CF:两颗RV870核心
GTX295 SLI:四颗GT200核心
我们的功耗测试方法是直接统计整套平台的总功耗,既简单、又直观。测试仪器为微型电力监测仪,它通过实时监控输入电源的电压和电流计算出当前的功率,这样得到的数值就是包括CPU、主板、内存、硬盘、显卡、电源以及线路损耗在内的主机总功率(不包括显示器)。
以上为双卡在跑3DMarkVantage时的峰值功耗,GTX295双卡系统足足比HD5870双卡高出了330W之多,令人惊讶无比,下面再来看看单卡系统的总功耗对比。
第八章 全文总结
查看个人网站
查看详细资料
TOP
大侠
禁止访问
Big brother is watching you
小黑屋
Down with BB
欢欢
天外飞仙
阿童木
有队伍的人
魔头
元始天尊
男猛工
惨遭淘汰最高