「直观对比」RTX3090和RTX4090的计算能力的参数对比

1. 引言

随着大模型的火热，越来越多的人希望可以购买一个硬件进行大模型的推理，特别是在3090和4090显卡的对比上，需求比较大。目前已有的显卡对比，大多面向于高端的A/H100或者800系列的对比[1]和分析[2]，如图所示。

项目	A100	H100	L40S	H200
架构	Ampere	Hopper	Ada Lovelace	Hopper
发布时间	2020	2022	2023	2024
FP64	9.7 TFLOPS	34 TFLOPS	暂无	34 TFLOPS
FP32	19.5 TFLOPS	67 TFLOPS	91.6 TFLOPS	67 TFLOPS
FP64 向量核心	19.5 TFLOPS	67 TFLOPS	暂无	67 TFLOPS
TF32 向量核心	312 TFLOPS	989 TFLOPS	183 TFLOPS	366* TFLOPS
BFLOAT16 向量核心	624 TFLOPS	1,979 TFLOPS	362.05 TFLOPS	733* TFLOPS
FP16 向量核心	624 TFLOPS	1,979 TFLOPS	362.05 TFLOPS	733* TFLOPS
FP8 向量核心	不适用	3,958 TFLOPS	733 TFLOPS	1,466* TFLOPS
INT8 向量核心	1248 TOPS	3,958 TOPS	733 TFLOPS	1,466* TFLOPS
INT4 向量核心	暂无	暂无	733 TFLOPS	1,466* TFLOPS
GPU 内存	80 GB HBM2e	80 GB	48GB GDDR6，带有 ECC	141GB HBM3e
GPU 内存带宽	2,039 Gbps	3.35 Tbps	864 Gbps	4.8 Tbps
解码器	Not applicable	7 NVDEC, 7 JPEG	Not applicable	7 NVDEC, 7 JPEG

但是，对于消费级的显卡的计算能力的参数对比还比较少，更多的是对比游戏或者跑分的。由于工作需要，特地辗转了多方网站，整理了3090和4090的性能参数对比图，附带A100的参数用于衔接。

属性	RTX 4090	RTX 3090	A100 (SMX4-80G)
GPU架构	AD102 (Ada Lovelace)	GA102 (Ampere)	GA100(Ampere)
GPCs (Graphics Processing Clusters)	11	7	7
TPCs (Texture Processing Clusters)	64	14	54
SMs (Streaming Multiprocessors)	128	82	108
FP32 CUDA Cores	16384	10496	6912
INT32 CUDA Cores	8192	5248	6912
Tensor Cores	512	328	432
RT Cores	128	82	N/A
Geometry Units	64	41	N/A
TMUs (Texture Units)	512	328	432
ROPs (Raster Operation Units)	176	112	160
INT4 (TOPS)	1321.2/2642.4	568/1136	1248/2496
INT8 (TOPS)	660.6/1321.2	284/568	624/1248
INT32 (TIPS)	41.3	17.8	19.5
BF16 (TFLOPS)	82.6	35.6	39
FP16 (TFLOPS)	82.6	35.6	78
FP32 (TFLOPS)	82.6	35.6	19.5
FP64 (TFLOPS)	1.3	0.56	9.7
Tensor Core FP8 (TFLOPS)	660.6/1321.2	N/A	N/A
Tensor Core FP16 (TFLOPS)	330/660	142/284	312/624
Tensor Core TF32 (TFLOPS)	82.6/165.2	35.6/71	156/312

从表中可以看出，在目前最常用的FP16上，4090和A100是一样的。也就是说，如果只是部署一个7B的模型，并且开了FP16，那么两者的推理速度应该是大致相同的。另外，如果开的是BF16的话4090还可以更胜一筹，但是BF16这种新的半精度表示，需要新显卡才能只支持，最低需要30系列，20系列以下的显卡就无缘了。关于PF16和BF16的差异如图所示，简单来说BF16和FP32具有相同的整数位，但是小数位精度差了一半，但是在LLM时代，大量的exp操作会导致范围比精度更重要。具体可以参见《为什么很多新发布的LLM模型默认不用float16呢？[3]》。

参考文献

[1] https://cloud.tencent.com/developer/article/2384552

[2] https://www.zhihu.com/question/618932114/answer/3192465335

[3] https://www.zhihu.com/question/616600181?utm_id=0

[4] https://developer.aliyun.com/article/1396336
[5] https://zh.wikipedia.org/wiki/NVIDIA_GeForce_30%E7%B3%BB%E5%88%97

展开阅读全文

页面更新：2024-05-17

标签：小数位参数向量直观精度架构显卡模型内存核心能力系列

1 2 3 4 5

「直观对比」RTX3090和RTX4090的计算能力的参数对比

1. 引言

参考文献

电视家被迫离场，OTT直播模式行不通？

联想首款AI手机moto X50 Ultra即将发布设计很有想法

下一个被淘汰的电子产品会是电视？恐怕没那么简单

5月18日小米SU7 Pro将首次公开亮相

天王山之战

斗罗2：各大院校美女校花排行榜，我最喜欢江楠楠，你喜欢谁？

《鬼灭之刃争当最强队士！》Steam预购开启国区售价218元

B站游戏区UP主花少北：恋情揭秘与公开道歉

“杀马特”家族消亡史：曾经遭全网封杀的青少年，现在怎么样了？

范闲重生记：《庆余年2》狂潮席卷网络，你准备好复仇季了吗？

西坡往事追忆泰安-泰安农大机房

不支持主播跳舞？小小玉酱不愿在斗鱼养老，网友：你那个不算舞蹈

本以为已经是过路人，相亲对象又回头找我了

女儿未归，老人将房和钱留给侄子，在侄子家里竟发现失踪女儿笔迹

跟着文字去旅行！第三届“光明阅读”视障读者快闪赛（盐城赛区）收官

字节跳动大模型首次全员亮相：价格低99%，没有参数规模和

火眼金睛！大疆行业发布全新多光旗舰负载禅思H30系列，276

曝小米核心决策成员离职：原因未知

魅族 21 Note 正式发布，全系 16GB 大内存，售价 2599 元

停半价，出核心概率更高？老武将越来越值钱了

首届全国职工马拉松系列赛事首站将在日照举办

春秋航空：截至本月末共运营125架空客A320系列飞机

人民日报摘录｜有一种了不起的能力，叫稳得住

巴黎奥运会-奥运会资格系列赛上海站举行欢迎盛典

小米公司：小米大语言模型MiLM正式通过大模型备案