什么是 Token📅 2024年09月10日 · ☕ 2 分钟Token 是一个与数据紧密相关的单位,可以用来度量训练模型所需的语料量,还可以用来度量推理时的输入和输出长度。 1. token 是什么 Token 可以是一个完整的单词、子词,甚至是一个字符。在语言模型中,文本被拆分为若干个 token,模型逐一处理这些 token 来生成预测或生成新文
什么是 FLOPs📅 2024年09月09日 · ☕ 1 分钟1. 关于 FLOPs FLOPs(Floating Point Operations Per Second)指的是每秒执行的浮点数运算次数。 具体地说: 一次浮点加法:如 a + b,被计为一次浮点运算。 一次浮点乘法:如 a * b,也被计为一次浮点运算。 其他基本浮点运算:如除法和平方根,也可以被计为一次浮
什么是 PD 分离📅 2024年09月08日 · ☕ 1 分钟1. 定义 LLM 推理过程中存在着两个截然不同的阶段,PD 分离就 计算密集型的 Prefill 阶段, LLM 处理所有用户的 input,计算出对应的 KV Cache 显存密集型的 Decode 阶段, 顺序的产生一个个的 token,每次访存只计算一个 token 2. 指标 2.1 prefill 性能评估指标 TTFT(Time To First Toke
开发了一个 Copilot 用来处理运维故障📅 2024年08月14日 · ☕ 9 分钟本篇内容主要来自内部的一次分享,也是最近工作的一些总结。 1. 常见的故障处理流程 如上图是一次典型的运维异常处理流程。 按照时间线,有如下关键时间点: 发生故障 发现故障 响应故障 定位故障 恢复故障 发生故障到发现故障,指的是被系统检测到,主要涉及到指标的采
模型研发周期中的数据存储📅 2024年05月26日 · ☕ 3 分钟1. 基于对象存储的数据交付 如上图,在模型研发过程中,主要涉及三个子平台,分别是: 数据平台 数据平台主要负责数据相关的管理,比如: 数据接入、数据处理,最终生成训练所需的数据。 数据平台将原始数据存储到对象存储中,在处理时,从对象存储中获取数据,进行