Please enable Javascript to view the contents

NVIDIA GPU 核心与架构演进史

 ·  ☕ 8 分钟

1. 产品线

  • GeForce

面向游戏玩家,提供强大的图形处理能力、先进的游戏技术。

常见的有 NVIDIA GTX 系列、高端的 RTX 系列、Titan 系列。

  • Quadro

面向专业市场,如设计师、工程师、科学家和内容创作者。

常见的有 Quadro P 系列,高端的 Quadro RTX 系列

  • Tesla

面向数据中心和高性能计算(HPC)市场,提供强大算力,适用于科学研究、深度学习。

常见的型号有 V100、A100 等。

  • Clara

面向医疗成像和生命科学领域,提供 AI 和加速计算能力,用于医学影像处理和生命数据分析

  • Jetson

面向边缘计算和机器人市场,提供小型化、低功耗的 AI 计算模块,适合嵌入式系统和机器人应用

  • Orin

面向自动驾驶和边缘 AI 市场,高能效的 SoC(System on Chip),集成了 CPU、GPU 和深度学习加速器

2. 命名规则

2.1 系列名称

  • GeForce,针对消费者和游戏市场的显卡系列。通常用于主流和高性能游戏显卡
  • Quadro,专业图形显卡系列,面向图形设计、3D 渲染和工程应用等领域
  • Tesla,专为数据中心、高性能计算(HPC)、AI 研究设计的 GPU 系列
  • Titan,高端显卡系列,介于消费者和专业市场之间,兼具游戏和计算能力
  • RTX,包含实时光线追踪技术的显卡,适用于游戏和高性能计算
  • GTX,面向主流和高性能游戏市场,不具备 RTX 系列的光线追踪功能

2.2 架构代号

  • 每一代显卡都会采用新的架构代号,如 Kepler、Maxwell、Pascal、Volta、Turing、Ampere、Hopper 等。通常不直接在显卡型号中显示,但可以通过显卡的代号或发布日期推测其架构。

2.3 型号数字

  • 首位数字,表示显卡的代系。例如,GTX 1080 中的 10 表示第 10 代(Pascal 架构),RTX 3080 中的 30 表示第 30 系列(Ampere 架构)
  • 第二位数字,表示显卡的定位或性能等级,数字越大,性能越强。例如,RTX 3080RTX 3070 性能更强
  • 末尾字母:
    • Ti,“Titanium” 的缩写,表示该型号的性能增强版,通常比不带 Ti 的同代型号性能更强。
    • SUPER,表示升级版本,通常比基础型号有更好的性能和性价比。
    • Ultra,很少使用,但有时用于表示更高性能的版本。

2.4 特别型号

  • Founders Edition (FE),这是 NVIDIA 自己发布的显卡版本,通常在显卡发布初期推出,具有独特的外观设计和散热方案
  • OEM,面向原始设备制造商(OEM)的显卡型号,可能与零售版有不同的规格

2.5 命名示例

  • GeForce RTX 3090 Ti:

    • GeForce,消费级游戏显卡系列。
    • RTX,支持实时光线追踪的系列。
    • 30,代表 30 系列显卡,基于 Ampere 架构。
    • 90,高端型号。
    • Ti,性能增强版。
  • Quadro RTX 5000:

    • Quadro,专业图形工作站显卡。
    • RTX,支持实时光线追踪。
    • 5000,中高端专业显卡型号。

3. 硬件计算核心

  • CUDA Core

CUDA Core 是 NVIDIA GPU 上的计算核心单元,用于执行通用的并行计算任务,是最常看到的核心类型。NVIDIA 通常用最小的运算单元表示自己的运算能力,CUDA Core 指的是一个执行基础运算的处理元件,我们所说的 CUDA Core 数量,通常对应的是 FP32 计算单元的数量。

  • Tensor Core

Tensor Core 是 NVIDIA Volta 架构及其后续架构(如 Ampere 架构)中引入的一种特殊计算单元。它们专门用于深度学习任务中的张量计算,如矩阵乘法和卷积运算。Tensor Core 核心特别大,通常与深度学习框架(如 TensorFlow 和 PyTorch)相结合使用,它可以把整个矩阵都载入寄存器中批量运算,实现十几倍的效率提升。

  • RT Core (Ray Tracing Core)

RT Core 是 NVIDIA 的专用硬件单元,主要用于加速光线追踪计算。正常数据中心级的 GPU 核心是没有 RT Core 的,主要是消费级显卡才为光线追踪运算添加了 RT Core。RT Core 主要用于游戏开发、电影制作和虚拟现实等需要实时渲染的领域。

4. NVIDIA 通用 GPU 架构

4.1 Tesla 架构

Tesla 架构发布于 2006 年。Tesla 架构全新的 CUDA 架构,支持使用 C 语言进行 GPU 编程,可以用于通用数据并行计算。Tesla 架构具有 128 个流处理器,带宽高达 86GB/s,标志着 GPU 开始从专用图形处理器转变为通用数据并行处理器。

典型卡型号:

  • Tesla C1060
  • Tesla M1060
  • Tesla S1070

4.2 Fermi 架构

Fermi 架构发布于 2008 年。Fermi 架构是第一个采用 GPU-Direct 技术的 GPU 架构,它拥有 32 个 SM(流多处理器)和 16 个 PolyMorph Engine 阵列,每个 SM 都拥有 1 个 PolyMorph Engine 和 64 个 CUDA 核心。该架构采用了 4 颗芯片的模块化设计,拥有 32 个光栅化处理单元和 16 个纹理单元,搭配 GDDR5 显存。

典型卡型号:

  • GeForce GTX 480
  • GeForce GTX 470
  • Quadro 6000
  • Quadro 5000
  • Quadro 4000
  • Quadro Plex 7000
  • GeForce GTX 465

4.4. Kepler 架构

Kepler 架构发布于 2012 年。Kepler 架构采用 28nm 制程,是首个支持超级计算和双精度计算的 GPU 架构。Kepler GK110 具有 2880 个流处理器和高达 288GB/s 的带宽,计算能力比 Fermi 架构提高 3-4 倍。Kepler 架构的出现使 GPU 开始成为高性能计算的关注点。

典型卡型号:

  • GeForce GTX 680
  • GeForce GTX Titan
  • GeForce GTX 780
  • GeForce GTX 770
  • GeForce GTX 760
  • GeForce GTX 780 Ti
  • GeForce GTX Titan Black

4.4. Maxwell 架构

Maxwell 架构发布于 2014 年。Maxwell 架构采用 28nm 制程。Maxwell 架构在功耗效率、计算密度上获得重大提升,一个流处理器拥有 128 个 CUDA 核心,而 Kepler 仅有 64 个。GM200 具有 3072 个 CUDA 核心和 336GB/s 带宽,但功耗只有 225W,计算密度是 Kepler 的两倍。Maxwell 标志着 GPU 的节能计算时代到来。

典型卡型号:

  • GeForce GTX 750 Ti
  • GeForce GTX 750
  • GeForce GTX 980
  • GeForce GTX 970
  • GeForce GTX Titan X
  • NVIDIA Tegra X1

4.5. Pascal 架构

Pascal 架构发布于 2016 年。Pascal 架构采用 16nm FinFETPlus 制程,增强了 GPU 的能效比和计算密度。Pascal GP100 具有 3840 个 CUDA 核心和 732GB/s 的显存带宽,但功耗只有 300W,比 Maxwell 架构提高 50%以上。Pascal 架构使 GPU 可以进入更广泛的人工智能、汽车等新兴应用市场。

典型卡型号

  • Tesla P100
  • GeForce GTX 10 Series
  • Titan X (Pascal)
  • Quadro GP100
  • Quadro P6000

这类 GPU 缺乏低精度的硬件加速能力,但却具备中等的单精度算力。由于价格便宜,适合用来练习训练小模型(如 Cifar10 )或调试模型代码。

4.6 Volta 架构

Volta 架构发布于 2017 年。Volta 架构采用 12nm FinFET 制程。Volta 架构新增了张量核心,可以大大加速人工智能和深度学习的训练与推理。Volta GV100 具有 5120 个 CUDA 核心和 900GB/s 的带宽,加上 640 个张量核心,AI 计算能力达到 112 TFLOPS,比 Pascal 架构提高了近 3 倍。Volta 的出现标志着 AI 成为 GPU 发展的新方向。

典型卡型号:

  • Tesla V100
  • GeForce Titan V
  • GeForce GTX 20 Series
  • Quadro GV100

这类 GPU 搭载专为低精度(int8/float16)计算加速的 Tensor Core, 但单精度算力相较于上代提升不大。建议启用深度学习框架的混合精度训练来加速模型计算。 相较于单精度训练,混合精度训练通常能够提供 2 倍以上的训练加速。

4.7. Turing 架构

Turing 架构发布于 2018 年。Turing 架构采用 12nm FinFET 制程。Turing 架构新增了 Ray Tracing 核心(RT Core),可硬件加速光线追踪运算。Turing TU102 具有 4608 个 CUDA 核心、576 个张量核心和 72 个 RT 核心,支持 GPU 光线追踪,代表了图形技术的新突破。同时,Turing 架构在人工智能方面性能也有较大提升。

典型卡型号:

  • GeForce RTX 20 Series
  • Quadro RTX 6000
  • Quadro RTX 8000
  • NVIDIA Turing T4

4.8. Ampere 架构

Ampere 架构发布于 2020 年。Ampere 架构在计算能力、能效和深度学习性能方面都有重大提升。Ampere 架构的 GPU 采用了多个流多处理器(SM)和更大的总线宽度,提供了更多的 CUDA Core 和更高的频率。它还引入了第三代 Tensor Core,提供更强大的深度学习计算性能。Ampere 架构的 GPU 还具有更高的内存容量和带宽,适用于大规模的数据处理和机器学习任务。

典型卡型号:

  • NVIDIA A100
  • NVIDIA A800
  • NVIDIA A40
  • NVIDIA A16
  • NVIDIA A10
  • GeForce RTX 30 Series
  • NVIDIA RTX A5000
  • NVIDIA RTX A4000
  • NVIDIA RTX A3000
  • NVIDIA RTX A2000

这类 GPU 搭载第三代 TensorCore。相较于前一代,支持了 TensorFloat32 格式,可直接加速单精度训练 (PyTorch 已默认开启)。建议使用超高算力的 float16 半精度训练模型,可获得比上一代 GPU 更显著的性能提升。

4.9. Hopper 架构

Hopper 架构发布于 2022 年。相较于 Ampere,Hopper 架构支持第四代 Tensor Core,且采用新型流式处理器,每个 SM 能力更强。Hopper 架构在计算能力、深度学习加速和图形功能方面带来新的创新和改进。

典型卡型号:

  • NVIDIA H100
  • NVIDIA H200
  • NVIDIA H800
  • NVIDIA H20

4.10. Blackwell 架构

Blackwell 架构发布于 2024 年。Blackwell 架构 GPU 具有 2080 亿个晶体管,采用专门定制的双倍光刻极限尺寸 4NP TSMC 工艺制造,通过 10 TB/s 的片间互联,将 GPU 裸片连接成一块统一的 GPU。

典型卡型号:

  • NVIDIA B40
  • NVIDIA B100

5. 常见 GPU 卡的算力值表

型号显存单精度(FP32)半精度(FP16)详细参数说明
409024GB82.58 T165.2 T查看新一代游戏卡皇,除显存比较小和多机多卡并行效率低的缺点外,性价比非常高
H10080GB51.22 T204.9 T查看算力、带宽、显存都很好,就是目前在国内不容易买到而且贵
H2096GB44 T148 T查看高缓存、高带宽,但是算力性能比非特供版低
A4048GB37.42 T149.7 T查看可以看做是 3090 的扩显存版。算力和 3090 基本持平,因此根据显存大小进行选择。需要使用 cuda11.x
309024GB35.58 T约 71T查看可以看做 3080Ti 的扩显存版。性能和显存大小都非常够用,适用性非常强,性价比首选。需要使用 cuda11.x
3080Ti12GB34.10 T约 70T查看性能钢炮,如果对显存要求不高则是非常合适的选择。需要使用 cuda11.x
A500024GB27.77 T约 117T查看性能钢炮,如果觉得 3080Ti 的显存不够用 A5000 是合适的选择,并且半精算力高适合混合精度。需要使用 cuda11.x
A10080GB19.5 T77.97 T查看新一代专业计算卡皇,除了贵没缺点。显存大,非常适合做半精计算,因为有 NVLink 600 GB/s,多卡并行加速比非常高。需要使用 cuda11.x
A80080GB19.5 T77.97 T查看与 A100 相比,主要差别在其 NVLink 速度只有 400 GB/s
A400016GB19.17 T约 76T查看显存和算力都比较均衡,适合进阶过程使用。需要使用 cuda11.x
V10016/32GB16.35 T125 T查看老一代专业计算卡皇,半精性能高适合做混合精度计算
2080Ti11GB13.45 T53.8 T查看图灵架构 GPU,性能还不错,老一代型号中比较适合做混合精度计算的 GPU。性价比高
306012GB12.74 T约 24T查看如果 1080Ti 的显存正好尴尬了,3060 是不错的选择,适合新手。需要使用 cuda11.x
TITAN Xp12GB12.15 T12.15 T查看比较老的 Pascal 架构 GPU,用作入门比较合适
Tesla P4024GB11.76 T11.76 T查看比较老的 Pascal 架构 GPU,对于 cuda11.x 之前且对大显存有需求的算法是非常不错的选择
1080 Ti11GB11.34 T11.34 T查看和 TITANXp 同时代的卡,同样适合入门,但是 11GB 的显存偶尔会比较尴尬

微信公众号
作者
微信公众号