[其他] 3070浮点20T 2080TI浮点13T 性能差不多？这是为什么？

jinwyp

天外飞仙

帖子: 12579
精华: 1
积分: 22170
激骚: 771 度
爱车
主机
相机
手机
来自: 软组织硬化咸湿地
注册时间: 2002-11-2

TGFC 2015新年勋章☆☆☆☆ TGFC 2019新年勋章☆☆☆☆ TGFC 2020年度勋章☆☆☆☆

发短消息
加为好友
当前离线

1^# 大中小发表于 2021-7-20 23:59 显示全部帖子

https://zhuanlan.zhihu.com/p/252941017

先来回顾下图灵的SM结构，一个图灵的SM有4个块，每个块有16个FP32和16个INT32。INT32单元是在图灵架构时候引入，是用来处理占比大概1/3的INT32任务。

INT32整数任务虽然占比不高，并且相比FP32浮点运算量不大，但在图灵之前的GPU跑INT32还是要浪费宝贵的FP32单元时钟周期来处理。图灵增加了复杂度不高的INT32单元以后，INT32和FP32就可以并行运行。以古墓丽影暗影为例，之前单纯依靠FP32单元切换任务轮流跑FP32和INT32需要100个周期的任务，现在INT32和FP32并行处理就只需要62个周期。增加简化的INT32单元,就可以在增加成本不多的情况下，解放高复杂度FP32的性能，将其从INT32的琐事中解放出来。

而安培在单个块里，有两组16个FP32和一组16个的INT32,但仅有2个数据通路，其中一组FP32独占一组数据通路，另外一组FP32和INT32共享一组,在共享的一组里FP32和IINT32不能同时执行，只能两者选其一。这样的设计在一个时钟周期内，要不跑16+16个FP32操作，要不跑16个FP32操作+16个INT32操作。

简单理解就是老黄多塞了一倍的FP32浮点计算单元,但对外宣传的是流处理器翻了一倍, 就是投机取巧的宣传方法,很鸡贼!

[ 本帖最后由 jinwyp 于 2021-7-21 00:04 编辑 ]

TOP