运维
Ops 发布 v1.0.0 版本
· ☕ 2 分钟
基于生产的真实需要,最近对 https://github.com/shaowenchen/ops 又进行了几个重要的更新,同时发布了 v1.0.0 版本。这里主要介绍一下这个版本的主要特性。 1. 多集群执行任务的支持 在实践中,建议: 将当前集群的主机创建为 Host 可以创建多个 Cluster,拥有的 Cluster 对象即为纳管的集群 Task、Pipe

开发了一个 Copilot 用来处理运维故障
· ☕ 9 分钟
本篇内容主要来自内部的一次分享,也是最近工作的一些总结。 1. 常见的故障处理流程 如上图是一次典型的运维异常处理流程。 按照时间线,有如下关键时间点: 发生故障 发现故障 响应故障 定位故障 恢复故障 发生故障到发现故障,指的是被系统检测到,主要涉及到指标的采

将 JuiceFS 元数据从 Redis 迁移到 PGSQL
· ☕ 2 分钟
1. 为什么将元数据存储从 Redis 迁移到 PGSQL PGSQL 成本低 Redis 使用内存存储元数据,PGSQL 使用磁盘存储元数据,成本差异显而易见。 PGSQL 性能可调节 不同的 PGSQL 提供了不同的性能 IOPS。如果对性能没有持续高的要求,使用 PGSQL 是不错的选择。 PGSQL 存储上限更高 如果按照元数据大小估算

如何查看服务器上的设备信息
· ☕ 4 分钟
1. 查看 CPU 查看 CPU 型号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 lscpu Architecture: x86_64 CPU op-mode(s): 32-bit, 64-bit Byte Order: Little Endian Address sizes: 46 bits physical, 57 bits virtual CPU(s): 160 # 有 160 个 CPU On-line CPU(s) list: 0-159 Thread(s) per core: 2 # 每个核心支持 2 个线程 Core(s) per socket: 40 Socket(s): 2 NUMA node(s): 2 Vendor ID: GenuineIntel CPU family: 6 Model: 106 Model name: Intel(R) Xeon(R) Platinum 8380 CPU @ 2.30GHz Stepping: 6 CPU MHz: 3000.000 # 当前工作频率为 3000 MHz BogoMIPS:

常用 GPU 运维及故障处理
· ☕ 8 分钟
处理故障时,参考或者记录下的内容,持续更新中 1. XID 错误事件 XID 是 NVIDIA 的错误码,可以通过命令: 1 dmesg -T | grep -i "NVRM: Xid" 或者 1 journalctl --since `date -d "10 days ago" "+%Y-%m-%d"`|grep Xid 根据 XID 可以定位故障,下面是一些常见的 XID 事件 XID 说明 13 Graphics Engine Exception。通常是数组越界、指令错误,小概率是硬件问