什么是
什么是 Token
· ☕ 2 分钟
Token 是一个与数据紧密相关的单位,可以用来度量训练模型所需的语料量,还可以用来度量推理时的输入和输出长度。 1. token 是什么 Token 可以是一个完整的单词、子词,甚至是一个字符。在语言模型中,文本被拆分为若干个 token,模型逐一处理这些 token 来生成预测或生成新文

什么是 FLOPs
· ☕ 1 分钟
1. 关于 FLOPs FLOPs(Floating Point Operations Per Second)指的是每秒执行的浮点数运算次数。 具体地说: 一次浮点加法:如 a + b,被计为一次浮点运算。 一次浮点乘法:如 a * b,也被计为一次浮点运算。 其他基本浮点运算:如除法和平方根,也可以被计为一次浮

什么是 PD 分离
· ☕ 1 分钟
1. 定义 LLM 推理过程中存在着两个截然不同的阶段,PD 分离就 计算密集型的 Prefill 阶段, LLM 处理所有用户的 input,计算出对应的 KV Cache 显存密集型的 Decode 阶段, 顺序的产生一个个的 token,每次访存只计算一个 token 2. 指标 2.1 prefill 性能评估指标 TTFT(Time To First Toke

什么是 MLOps
· ☕ 4 分钟
1. 什么是 MLOps MLOps 是 Machine Learning Operations 的缩写,描述的是围绕模型研发整个生命周期过程的标准化和工程化。 MLOps 包括以下几个关键步骤: 数据管理,数据的存储、访问、清洗、转换 模型开发,算法开发、模型构建 模型训练与调优,使用数据训练模型,调整超参数优化模型,微调模型 模型评

什么是白板分享
· ☕ 3 分钟
1. 曾经的尝试 在博文没有标签的你,让人无法想起中,我强调在趋同的群体中,个体成为了背景噪声,而标签成为了有效的信息。 在下面这张图中,我们很难记住某一个人,但是却很容易通过 A、B、C、D、E 标签找到某一个人。 标记之后,人与人之间会形成网络,而所