»
首页
|
手机数码
|
汽车资讯
|
游戏硬件
|
评测专题
|
手机壁纸
|
海淘值得买
|
度假
|
求职招聘
|
广告联系
» 您尚未登录:请
登录
|
注册
|
标签
|
帮助
|
小黑屋
|
TGFC Lifestyle
»
游戏业界综合讨论区
» 3070浮点20T 2080TI浮点13T 性能差不多?这是为什么?
发新话题
发布投票
发布商品
发布悬赏
发布活动
发布辩论
发布视频
公司招聘信息
打印
[其他]
3070浮点20T 2080TI浮点13T 性能差不多?这是为什么?
jinwyp
天外飞仙
帖子
12579
精华
1
积分
22170
激骚
771 度
爱车
主机
相机
手机
来自
软组织硬化咸湿地
注册时间
2002-11-2
发短消息
加为好友
当前离线
1
#
大
中
小
发表于 2021-7-20 23:59
显示全部帖子
https://zhuanlan.zhihu.com/p/252941017
先来回顾下图灵的SM结构,一个图灵的SM有4个块,每个块有16个FP32和16个INT32。INT32单元是在图灵架构时候引入,是用来处理占比大概1/3的INT32任务。
INT32整数任务虽然占比不高,并且相比FP32浮点运算量不大,但在图灵之前的GPU跑INT32还是要浪费宝贵的FP32单元时钟周期来处理。图灵增加了复杂度不高的INT32单元以后,INT32和FP32就可以并行运行。以古墓丽影暗影为例,之前单纯依靠FP32单元切换任务轮流跑FP32和INT32需要100个周期的任务,现在INT32和FP32并行处理就只需要62个周期。增加简化的INT32单元,就可以在增加成本不多的情况下,解放高复杂度FP32的性能,将其从INT32的琐事中解放出来。
而安培在单个块里,有两组16个FP32和一组16个的INT32,但仅有2个数据通路,其中一组FP32独占一组数据通路,另外一组FP32和INT32共享一组,在共享的一组里FP32和IINT32不能同时执行,只能两者选其一。这样的设计在一个时钟周期内,要不跑16+16个FP32操作,要不跑16个FP32操作+16个INT32操作。
简单理解就是老黄多塞了一倍的FP32浮点计算单元,但对外宣传的是流处理器翻了一倍, 就是投机取巧的宣传方法,很鸡贼!
[
本帖最后由 jinwyp 于 2021-7-21 00:04 编辑
]
UID
5673
帖子
12579
精华
1
积分
22170
交易积分
0
阅读权限
40
来自
软组织硬化咸湿地
在线时间
12172 小时
注册时间
2002-11-2
最后登录
2024-11-12
查看个人网站
查看详细资料
TOP
控制面板首页
密码修改
积分交易
积分记录
公众用户组
基本概况
版块排行
主题排行
发帖排行
积分排行
交易排行
在线时间
管理团队
管理统计