» 您尚未登录:请 登录 | 注册 | 标签 | 帮助 | 小黑屋 |


发新话题
打印

[其他] 3070浮点20T 2080TI浮点13T 性能差不多?这是为什么?

https://zhuanlan.zhihu.com/p/252941017

先来回顾下图灵的SM结构,一个图灵的SM有4个块,每个块有16个FP32和16个INT32。INT32单元是在图灵架构时候引入,是用来处理占比大概1/3的INT32任务。

INT32整数任务虽然占比不高,并且相比FP32浮点运算量不大,但在图灵之前的GPU跑INT32还是要浪费宝贵的FP32单元时钟周期来处理。图灵增加了复杂度不高的INT32单元以后,INT32和FP32就可以并行运行。以古墓丽影暗影为例,之前单纯依靠FP32单元切换任务轮流跑FP32和INT32需要100个周期的任务,现在INT32和FP32并行处理就只需要62个周期。增加简化的INT32单元,就可以在增加成本不多的情况下,解放高复杂度FP32的性能,将其从INT32的琐事中解放出来。

而安培在单个块里,有两组16个FP32和一组16个的INT32,但仅有2个数据通路,其中一组FP32独占一组数据通路,另外一组FP32和INT32共享一组,在共享的一组里FP32和IINT32不能同时执行,只能两者选其一。这样的设计在一个时钟周期内,要不跑16+16个FP32操作,要不跑16个FP32操作+16个INT32操作。



简单理解就是老黄多塞了一倍的FP32浮点计算单元,但对外宣传的是流处理器翻了一倍, 就是投机取巧的宣传方法,很鸡贼!

[ 本帖最后由 jinwyp 于 2021-7-21 00:04 编辑 ]


TOP

发新话题
     
官方公众号及微博