陈少文的网站

NVIDIA DCGM 使用指南

📅 2025年08月13日 · ☕ 9 分钟

1. 什么是 DCGM DCGM (Data Center GPU Manager) 是 NVIDIA 提供的一个用于数据中心 GPU 管理和监控的工具集，提供了以下功能: GPU 行为监控 GPU 配置管理 GPU 策略监督 GPU 健康和诊断 GPU 计费和进程统计 NVSwitch 配置和监控 2. 安装 DCGM 2.1 安装 libnvidia-nscq 一般都是 NVLink 连接 GPU，可以通过 nvidia-smi topo -m 查看是否有 NVSwitch 字样输出判断是否需要安

如何清理僵尸进程

📅 2025年08月07日 · ☕ 2 分钟

1. 什么是僵尸进程进程的创建过程: 父进程调用 fork() 创建子进程子进程执行 exec() 加载新程序子进程结束执行，调用 exit() 或返回父进程调用 wait() 或 waitpid() 如果父进程没有调用 wait() 或 waitpid()，子进程结束后仍然保留在系统中，成为僵尸进程。 2. 怎么查看僵尸进程可以使用 ps 命令查

使用 VLLM Benchmark 进行模型性能测试

📅 2025年08月05日 · ☕ 3 分钟

VLLM Benchmark 是 VLLM 提供的一个用于测试模型性能的工具，支持多种推理后端。本文主要记录一些使用 VLLM Benchmark 进行模型性能测试的过程。 1. 启动模型服务 1 2 3 4 5 6 7 8 9 10 11 12 13 14 python -m vllm.entrypoints.openai.api_server \ --model /models/Qwen2.5-7B-Instruct \ --served-model-name /models/Qwen2.5-7B-Instruct \ --host 0.0.0.0 \ --port 8000 \ --trust-remote-code \ --dtype bfloat16 \ --gpu-memory-utilization 0.90 \ --max-model-len 4096 \ --max-seq-len-to-capture 8192 \ --max-num-seqs 128 \ --disable-log-stats \ --tensor-parallel-size 1 \ --no-enable-prefix-caching 2. 启动客户端

眼看他拔地起，眼看他化作泥 - KubeSphere

📅 2025年08月01日 · ☕ 3 分钟

1. 打脸式删库删镜像删文档发起人 Ray 在职青云科技的最后一天，开源项目 KubeSphere 的前端、文档、镜像被删除，用户在各种渠道收到【关于 KubeSphere 开源项目调整的公告】。即使，这家公司管理层对 KubeSphere 分歧很大，对某些人有针对性、有敌意，也不至于如此粗暴与迅速。只能说，这事办得

history 命令使用

📅 2025年07月13日 · ☕ 1 分钟

1. history 命令使用 history 命令可以查看当前会话的命令历史记录，当退出 shell 时，命令历史会被保存到对应的历史文件中。如果是 bash，则命令历史会保存在 ~/.bash_history 文件中；如果是 zsh，则保存在 ~/.zsh_history 文件中。也可以使用 HISTFILE 环境变量来指定历史记录文件的位置，export HISTFILE=/data/ops/bash_history 。 2. 如