整理 – 陈少文的网站

什么是 Token

📅 2024年09月10日 · ☕ 2 分钟

Token 是一个与数据紧密相关的单位，可以用来度量训练模型所需的语料量，还可以用来度量推理时的输入和输出长度。 1. token 是什么 Token 可以是一个完整的单词、子词，甚至是一个字符。在语言模型中，文本被拆分为若干个 token，模型逐一处理这些 token 来生成预测或生成新文

什么是 FLOPs

📅 2024年09月09日 · ☕ 1 分钟

1. 关于 FLOPs FLOPs（Floating Point Operations Per Second）指的是每秒执行的浮点数运算次数。具体地说：一次浮点加法：如 a + b，被计为一次浮点运算。一次浮点乘法：如 a * b，也被计为一次浮点运算。其他基本浮点运算：如除法和平方根，也可以被计为一次浮

什么是 PD 分离

📅 2024年09月08日 · ☕ 1 分钟

1. 定义 LLM 推理过程中存在着两个截然不同的阶段，PD 分离就计算密集型的 Prefill 阶段， LLM 处理所有用户的 input，计算出对应的 KV Cache 显存密集型的 Decode 阶段，顺序的产生一个个的 token，每次访存只计算一个 token 2. 指标 2.1 prefill 性能评估指标 TTFT（Time To First Toke

NVIDIA GPU 核心与架构演进史

📅 2024年08月25日 · ☕ 8 分钟

1. 产品线 GeForce 面向游戏玩家，提供强大的图形处理能力、先进的游戏技术。常见的有 NVIDIA GTX 系列、高端的 RTX 系列、Titan 系列。 Quadro 面向专业市场，如设计师、工程师、科学家和内容创作者。常见的有 Quadro P 系列，高端的 Quadro RTX 系列 Tesla 面向数据中心和高性能计算（HPC）市场，

分布式训练中的数据并行架构

📅 2024年08月21日 · ☕ 5 分钟

1. Parameter Server 架构在 Parameter Server 架构中，集群中的节点被分为两类，参数服务器节点（Parameter Server）和工作服务器节点（Worker）。 1.1 Parameter Server Parameter Server 用于存放模型的参数。每个参数服务器节点负责管理和更新模型的一部分参数，而每个工作节点则只处理与其对应