大模型 – 陈少文的网站

以 Qwen 为例，学习大模型的结构

📅 2025年02月09日 · ☕ 6 分钟

1. Qwen 模型介绍 2023 年 4 月，阿里巴巴推出 Qwen 的测试版。 2023 年 12 月，阿里巴巴开源了 Qwen 的第一个版本。 2024 年 9 月，阿里巴巴发布了 Qwen2.5。 2025 年 1 月，阿里巴巴发布了 Qwen 2.5-Max。 Qwen 2.5 是 Qwen 大语言模型的目前最新系列。之所以说是系列，是因为在训练完一个预训

什么是 Token

📅 2024年09月10日 · ☕ 2 分钟

Token 是一个与数据紧密相关的单位，可以用来度量训练模型所需的语料量，还可以用来度量推理时的输入和输出长度。 1. token 是什么 Token 可以是一个完整的单词、子词，甚至是一个字符。在语言模型中，文本被拆分为若干个 token，模型逐一处理这些 token 来生成预测或生成新文

什么是 FLOPs

📅 2024年09月09日 · ☕ 1 分钟

1. 关于 FLOPs FLOPs（Floating Point Operations Per Second）指的是每秒执行的浮点数运算次数。具体地说：一次浮点加法：如 a + b，被计为一次浮点运算。一次浮点乘法：如 a * b，也被计为一次浮点运算。其他基本浮点运算：如除法和平方根，也可以被计为一次浮

什么是 PD 分离

📅 2024年09月08日 · ☕ 1 分钟

1. 定义 LLM 推理过程中存在着两个截然不同的阶段，PD 分离就计算密集型的 Prefill 阶段， LLM 处理所有用户的 input，计算出对应的 KV Cache 显存密集型的 Decode 阶段，顺序的产生一个个的 token，每次访存只计算一个 token 2. 指标 2.1 prefill 性能评估指标 TTFT（Time To First Toke

开发了一个 Copilot 用来处理运维故障

📅 2024年08月14日 · ☕ 9 分钟

本篇内容主要来自内部的一次分享，也是最近工作的一些总结。 1. 常见的故障处理流程如上图是一次典型的运维异常处理流程。按照时间线，有如下关键时间点: 发生故障发现故障响应故障定位故障恢复故障发生故障到发现故障，指的是被系统检测到，主要涉及到指标的采