运维 – 陈少文的网站

Ops 发布 v1.0.0 版本

📅 2024年11月07日 · ☕ 2 分钟

基于生产的真实需要，最近对 https://github.com/shaowenchen/ops 又进行了几个重要的更新，同时发布了 v1.0.0 版本。这里主要介绍一下这个版本的主要特性。 1. 多集群执行任务的支持在实践中，建议: 将当前集群的主机创建为 Host 可以创建多个 Cluster，拥有的 Cluster 对象即为纳管的集群 Task、Pipe

开发了一个 Copilot 用来处理运维故障

📅 2024年08月14日 · ☕ 9 分钟

本篇内容主要来自内部的一次分享，也是最近工作的一些总结。 1. 常见的故障处理流程如上图是一次典型的运维异常处理流程。按照时间线，有如下关键时间点: 发生故障发现故障响应故障定位故障恢复故障发生故障到发现故障，指的是被系统检测到，主要涉及到指标的采

将 JuiceFS 元数据从 Redis 迁移到 PGSQL

📅 2024年08月12日 · ☕ 2 分钟

1. 为什么将元数据存储从 Redis 迁移到 PGSQL PGSQL 成本低 Redis 使用内存存储元数据，PGSQL 使用磁盘存储元数据，成本差异显而易见。 PGSQL 性能可调节不同的 PGSQL 提供了不同的性能 IOPS。如果对性能没有持续高的要求，使用 PGSQL 是不错的选择。 PGSQL 存储上限更高如果按照元数据大小估算

1. 查看 CPU 查看 CPU 型号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 lscpu Architecture: x86_64 CPU op-mode(s): 32-bit, 64-bit Byte Order: Little Endian Address sizes: 46 bits physical, 57 bits virtual CPU(s): 160 # 有 160 个 CPU On-line CPU(s) list: 0-159 Thread(s) per core: 2 # 每个核心支持 2 个线程 Core(s) per socket: 40 Socket(s): 2 NUMA node(s): 2 Vendor ID: GenuineIntel CPU family: 6 Model: 106 Model name: Intel(R) Xeon(R) Platinum 8380 CPU @ 2.30GHz Stepping: 6 CPU MHz: 3000.000 # 当前工作频率为 3000 MHz BogoMIPS:

常用 GPU 运维及故障处理

📅 2024年03月18日 · ☕ 8 分钟

处理故障时，参考或者记录下的内容，持续更新中 1. XID 错误事件 XID 是 NVIDIA 的错误码，可以通过命令: 1 dmesg -T | grep -i "NVRM: Xid" 或者 1 journalctl --since `date -d "10 days ago" "+%Y-%m-%d"`|grep Xid 根据 XID 可以定位故障，下面是一些常见的 XID 事件 XID 说明 13 Graphics Engine Exception。通常是数组越界、指令错误,小概率是硬件问

运维