AI
你也可以这样落地 AI Agent - 运维事件篇
· ☕ 4 分钟
1. 为什么是运维事件 更小的入侵性 Metrics、Log 维度的观测数据,运维团队通常都有所沉淀。运维事件可以是一个新的切入点,在不影响现有系统稳定性的情况下,引入新的运维能力。 更适合自动化 Metrics 表征的是系统状态,Log 表征的是具体代码行为,而 Event 表征

常见的几种 LLM Agent 架构
· ☕ 1 分钟
1. 链式提示系统(Prompt chaining) 提示链将任务分解为一系列步骤,其中每个 LLM 调用都会处理前一个步骤的输出。 2. 路由系统(Routing) 路由会对输入进行分类,并将其定向到专门的后续任务。 3. 并行化系统(Parallelization)

你也可以这样落地 AI Agent - 案例篇
· ☕ 2 分钟
1. 处理确定故障 对于有具体处理方式的故障,直接使用 Agent 处理,发通知周知即可。 类似的自动处理,我们有应用层的异常负载删除、节点层的磁盘清理、GPU 掉卡屏蔽卡、屏蔽节点等。先找出团队中遇到得最多、需要最多人力的事情,对其进行自动化处理。你可以认为,

使用 LLaMA-Factory 微调 Qwen3 模型
· ☕ 6 分钟
1. 原始模型测试 启动环境 1 2 3 4 5 6 7 8 9 10 nerdctl run -it \ --gpus all \ --ipc=host \ -p 8000:8000 \ --ulimit memlock=-1 \ --ulimit stack=67108864 \ --name vllm \ --volume /data/models:/data/models \ --entrypoint /bin/bash \ vllm/vllm-openai:v0.10.1.1 后面 vllm 相关的测试,都基于这个环境。 启动服务 1 2 3 4 5 6 export CUDA_VISIBLE_DEVICES=0 python3 -m vllm.entrypoints.openai.api_server \ --model /data/models/Qwen3-0.6B \ --served-model-name /data/models/Qwen3-0.6B \ --host 0.0.0.0 \ --port 8000 测试 1 2 3 4 5 6 7 8 curl -X POST "http://127.0.0.1:8000/v1/chat/completions" \ -H "Content-Type: application/json" \ -d '{ "model": "/data/models/Qwen3-0.6B", "messages": [ {"role": "user",

使用 lmcache 能显著改善模型推理的 TTFT
· ☕ 5 分钟
1. LMCache 简介 TTFT 是指从请求发出到模型生成第一个 token 的时间。由于 Prefill 阶段需要把输入的上下文编码成 KV Cache,才能开始生成,在生成第一个 token 时需要大量的计算从而导致 TTFT 很高。 为了降低 TTFT,有一个思路就是将 Prefill 阶段计算出来的 KV Cache 缓存起来,下次遇到相同的上下