1. 产品线
- GeForce
面向游戏玩家,提供强大的图形处理能力、先进的游戏技术。
常见的有 NVIDIA GTX 系列、高端的 RTX 系列、Titan 系列。
- Quadro
面向专业市场,如设计师、工程师、科学家和内容创作者。
常见的有 Quadro P 系列,高端的 Quadro RTX 系列
- Tesla
面向数据中心和高性能计算(HPC)市场,提供强大算力,适用于科学研究、深度学习。
常见的型号有 V100、A100 等。
- Clara
面向医疗成像和生命科学领域,提供 AI 和加速计算能力,用于医学影像处理和生命数据分析
- Jetson
面向边缘计算和机器人市场,提供小型化、低功耗的 AI 计算模块,适合嵌入式系统和机器人应用
- Orin
面向自动驾驶和边缘 AI 市场,高能效的 SoC(System on Chip),集成了 CPU、GPU 和深度学习加速器
2. 命名规则
2.1 系列名称
- GeForce,针对消费者和游戏市场的显卡系列。通常用于主流和高性能游戏显卡
- Quadro,专业图形显卡系列,面向图形设计、3D 渲染和工程应用等领域
- Tesla,专为数据中心、高性能计算(HPC)、AI 研究设计的 GPU 系列
- Titan,高端显卡系列,介于消费者和专业市场之间,兼具游戏和计算能力
- RTX,包含实时光线追踪技术的显卡,适用于游戏和高性能计算
- GTX,面向主流和高性能游戏市场,不具备 RTX 系列的光线追踪功能
2.2 架构代号
- 每一代显卡都会采用新的架构代号,如 Kepler、Maxwell、Pascal、Volta、Turing、Ampere、Hopper 等。通常不直接在显卡型号中显示,但可以通过显卡的代号或发布日期推测其架构。
2.3 型号数字
- 首位数字,表示显卡的代系。例如,
GTX 1080
中的10
表示第 10 代(Pascal 架构),RTX 3080
中的30
表示第 30 系列(Ampere 架构) - 第二位数字,表示显卡的定位或性能等级,数字越大,性能越强。例如,
RTX 3080
比RTX 3070
性能更强 - 末尾字母:
- Ti,“Titanium” 的缩写,表示该型号的性能增强版,通常比不带 Ti 的同代型号性能更强。
- SUPER,表示升级版本,通常比基础型号有更好的性能和性价比。
- Ultra,很少使用,但有时用于表示更高性能的版本。
2.4 特别型号
- Founders Edition (FE),这是 NVIDIA 自己发布的显卡版本,通常在显卡发布初期推出,具有独特的外观设计和散热方案
- OEM,面向原始设备制造商(OEM)的显卡型号,可能与零售版有不同的规格
2.5 命名示例
GeForce RTX 3090 Ti:
- GeForce,消费级游戏显卡系列。
- RTX,支持实时光线追踪的系列。
- 30,代表 30 系列显卡,基于 Ampere 架构。
- 90,高端型号。
- Ti,性能增强版。
Quadro RTX 5000:
- Quadro,专业图形工作站显卡。
- RTX,支持实时光线追踪。
- 5000,中高端专业显卡型号。
3. 硬件计算核心
- CUDA Core
CUDA Core 是 NVIDIA GPU 上的计算核心单元,用于执行通用的并行计算任务,是最常看到的核心类型。NVIDIA 通常用最小的运算单元表示自己的运算能力,CUDA Core 指的是一个执行基础运算的处理元件,我们所说的 CUDA Core 数量,通常对应的是 FP32 计算单元的数量。
- Tensor Core
Tensor Core 是 NVIDIA Volta 架构及其后续架构(如 Ampere 架构)中引入的一种特殊计算单元。它们专门用于深度学习任务中的张量计算,如矩阵乘法和卷积运算。Tensor Core 核心特别大,通常与深度学习框架(如 TensorFlow 和 PyTorch)相结合使用,它可以把整个矩阵都载入寄存器中批量运算,实现十几倍的效率提升。
- RT Core (Ray Tracing Core)
RT Core 是 NVIDIA 的专用硬件单元,主要用于加速光线追踪计算。正常数据中心级的 GPU 核心是没有 RT Core 的,主要是消费级显卡才为光线追踪运算添加了 RT Core。RT Core 主要用于游戏开发、电影制作和虚拟现实等需要实时渲染的领域。
4. NVIDIA 通用 GPU 架构
4.1 Tesla 架构
Tesla 架构发布于 2006 年。Tesla 架构全新的 CUDA 架构,支持使用 C 语言进行 GPU 编程,可以用于通用数据并行计算。Tesla 架构具有 128 个流处理器,带宽高达 86GB/s,标志着 GPU 开始从专用图形处理器转变为通用数据并行处理器。
典型卡型号:
- Tesla C1060
- Tesla M1060
- Tesla S1070
4.2 Fermi 架构
Fermi 架构发布于 2008 年。Fermi 架构是第一个采用 GPU-Direct 技术的 GPU 架构,它拥有 32 个 SM(流多处理器)和 16 个 PolyMorph Engine 阵列,每个 SM 都拥有 1 个 PolyMorph Engine 和 64 个 CUDA 核心。该架构采用了 4 颗芯片的模块化设计,拥有 32 个光栅化处理单元和 16 个纹理单元,搭配 GDDR5 显存。
典型卡型号:
- GeForce GTX 480
- GeForce GTX 470
- Quadro 6000
- Quadro 5000
- Quadro 4000
- Quadro Plex 7000
- GeForce GTX 465
4.4. Kepler 架构
Kepler 架构发布于 2012 年。Kepler 架构采用 28nm 制程,是首个支持超级计算和双精度计算的 GPU 架构。Kepler GK110 具有 2880 个流处理器和高达 288GB/s 的带宽,计算能力比 Fermi 架构提高 3-4 倍。Kepler 架构的出现使 GPU 开始成为高性能计算的关注点。
典型卡型号:
- GeForce GTX 680
- GeForce GTX Titan
- GeForce GTX 780
- GeForce GTX 770
- GeForce GTX 760
- GeForce GTX 780 Ti
- GeForce GTX Titan Black
4.4. Maxwell 架构
Maxwell 架构发布于 2014 年。Maxwell 架构采用 28nm 制程。Maxwell 架构在功耗效率、计算密度上获得重大提升,一个流处理器拥有 128 个 CUDA 核心,而 Kepler 仅有 64 个。GM200 具有 3072 个 CUDA 核心和 336GB/s 带宽,但功耗只有 225W,计算密度是 Kepler 的两倍。Maxwell 标志着 GPU 的节能计算时代到来。
典型卡型号:
- GeForce GTX 750 Ti
- GeForce GTX 750
- GeForce GTX 980
- GeForce GTX 970
- GeForce GTX Titan X
- NVIDIA Tegra X1
4.5. Pascal 架构
Pascal 架构发布于 2016 年。Pascal 架构采用 16nm FinFETPlus 制程,增强了 GPU 的能效比和计算密度。Pascal GP100 具有 3840 个 CUDA 核心和 732GB/s 的显存带宽,但功耗只有 300W,比 Maxwell 架构提高 50%以上。Pascal 架构使 GPU 可以进入更广泛的人工智能、汽车等新兴应用市场。
典型卡型号
- Tesla P100
- GeForce GTX 10 Series
- Titan X (Pascal)
- Quadro GP100
- Quadro P6000
这类 GPU 缺乏低精度的硬件加速能力,但却具备中等的单精度算力。由于价格便宜,适合用来练习训练小模型(如 Cifar10 )或调试模型代码。
4.6 Volta 架构
Volta 架构发布于 2017 年。Volta 架构采用 12nm FinFET 制程。Volta 架构新增了张量核心,可以大大加速人工智能和深度学习的训练与推理。Volta GV100 具有 5120 个 CUDA 核心和 900GB/s 的带宽,加上 640 个张量核心,AI 计算能力达到 112 TFLOPS,比 Pascal 架构提高了近 3 倍。Volta 的出现标志着 AI 成为 GPU 发展的新方向。
典型卡型号:
- Tesla V100
- GeForce Titan V
- GeForce GTX 20 Series
- Quadro GV100
这类 GPU 搭载专为低精度(int8/float16)计算加速的 Tensor Core, 但单精度算力相较于上代提升不大。建议启用深度学习框架的混合精度训练来加速模型计算。 相较于单精度训练,混合精度训练通常能够提供 2 倍以上的训练加速。
4.7. Turing 架构
Turing 架构发布于 2018 年。Turing 架构采用 12nm FinFET 制程。Turing 架构新增了 Ray Tracing 核心(RT Core),可硬件加速光线追踪运算。Turing TU102 具有 4608 个 CUDA 核心、576 个张量核心和 72 个 RT 核心,支持 GPU 光线追踪,代表了图形技术的新突破。同时,Turing 架构在人工智能方面性能也有较大提升。
典型卡型号:
- GeForce RTX 20 Series
- Quadro RTX 6000
- Quadro RTX 8000
- NVIDIA Turing T4
4.8. Ampere 架构
Ampere 架构发布于 2020 年。Ampere 架构在计算能力、能效和深度学习性能方面都有重大提升。Ampere 架构的 GPU 采用了多个流多处理器(SM)和更大的总线宽度,提供了更多的 CUDA Core 和更高的频率。它还引入了第三代 Tensor Core,提供更强大的深度学习计算性能。Ampere 架构的 GPU 还具有更高的内存容量和带宽,适用于大规模的数据处理和机器学习任务。
典型卡型号:
- NVIDIA A100
- NVIDIA A800
- NVIDIA A40
- NVIDIA A16
- NVIDIA A10
- GeForce RTX 30 Series
- NVIDIA RTX A5000
- NVIDIA RTX A4000
- NVIDIA RTX A3000
- NVIDIA RTX A2000
这类 GPU 搭载第三代 TensorCore。相较于前一代,支持了 TensorFloat32 格式,可直接加速单精度训练 (PyTorch 已默认开启)。建议使用超高算力的 float16 半精度训练模型,可获得比上一代 GPU 更显著的性能提升。
4.9. Hopper 架构
Hopper 架构发布于 2022 年。相较于 Ampere,Hopper 架构支持第四代 Tensor Core,且采用新型流式处理器,每个 SM 能力更强。Hopper 架构在计算能力、深度学习加速和图形功能方面带来新的创新和改进。
典型卡型号:
- NVIDIA H100
- NVIDIA H200
- NVIDIA H800
- NVIDIA H20
4.10. Blackwell 架构
Blackwell 架构发布于 2024 年。Blackwell 架构 GPU 具有 2080 亿个晶体管,采用专门定制的双倍光刻极限尺寸 4NP TSMC 工艺制造,通过 10 TB/s 的片间互联,将 GPU 裸片连接成一块统一的 GPU。
典型卡型号:
- NVIDIA B40
- NVIDIA B100
5. 常见 GPU 卡的算力值表
型号 | 显存 | 单精度(FP32) | 半精度(FP16) | 详细参数 | 说明 |
---|---|---|---|---|---|
4090 | 24GB | 82.58 T | 165.2 T | 查看 | 新一代游戏卡皇,除显存比较小和多机多卡并行效率低的缺点外,性价比非常高 |
H100 | 80GB | 51.22 T | 204.9 T | 查看 | 算力、带宽、显存都很好,就是目前在国内不容易买到而且贵 |
H20 | 96GB | 44 T | 148 T | 查看 | 高缓存、高带宽,但是算力性能比非特供版低 |
A40 | 48GB | 37.42 T | 149.7 T | 查看 | 可以看做是 3090 的扩显存版。算力和 3090 基本持平,因此根据显存大小进行选择。需要使用 cuda11.x |
3090 | 24GB | 35.58 T | 约 71T | 查看 | 可以看做 3080Ti 的扩显存版。性能和显存大小都非常够用,适用性非常强,性价比首选。需要使用 cuda11.x |
3080Ti | 12GB | 34.10 T | 约 70T | 查看 | 性能钢炮,如果对显存要求不高则是非常合适的选择。需要使用 cuda11.x |
A5000 | 24GB | 27.77 T | 约 117T | 查看 | 性能钢炮,如果觉得 3080Ti 的显存不够用 A5000 是合适的选择,并且半精算力高适合混合精度。需要使用 cuda11.x |
A100 | 80GB | 19.5 T | 77.97 T | 查看 | 新一代专业计算卡皇,除了贵没缺点。显存大,非常适合做半精计算,因为有 NVLink 600 GB/s,多卡并行加速比非常高。需要使用 cuda11.x |
A800 | 80GB | 19.5 T | 77.97 T | 查看 | 与 A100 相比,主要差别在其 NVLink 速度只有 400 GB/s |
A4000 | 16GB | 19.17 T | 约 76T | 查看 | 显存和算力都比较均衡,适合进阶过程使用。需要使用 cuda11.x |
V100 | 16/32GB | 16.35 T | 125 T | 查看 | 老一代专业计算卡皇,半精性能高适合做混合精度计算 |
2080Ti | 11GB | 13.45 T | 53.8 T | 查看 | 图灵架构 GPU,性能还不错,老一代型号中比较适合做混合精度计算的 GPU。性价比高 |
3060 | 12GB | 12.74 T | 约 24T | 查看 | 如果 1080Ti 的显存正好尴尬了,3060 是不错的选择,适合新手。需要使用 cuda11.x |
TITAN Xp | 12GB | 12.15 T | 12.15 T | 查看 | 比较老的 Pascal 架构 GPU,用作入门比较合适 |
Tesla P40 | 24GB | 11.76 T | 11.76 T | 查看 | 比较老的 Pascal 架构 GPU,对于 cuda11.x 之前且对大显存有需求的算法是非常不错的选择 |
1080 Ti | 11GB | 11.34 T | 11.34 T | 查看 | 和 TITANXp 同时代的卡,同样适合入门,但是 11GB 的显存偶尔会比较尴尬 |