博文 – 陈少文的网站

GPU 主机如何开启 GDS

📅 2024年09月11日 · ☕ 5 分钟

1. 什么是 GDS（GPUDirectStorage） GDS 允许 RDMA 网卡直接访问 GPU 内存，有助于增加 GPU 应用读写文件的 IO 带宽，减少 IO 时延，并降低其 CPU 负载。客户端在开启 GDS 特性后，文件将以 O_DIRECT 方式打开，客户端不会再缓存文件数据。应用层读写文件时，客户端通过 nvidia-fs.ko 将

本文使用的 DLRover 版本是 0.3.7 1. DLRover Operator 1.1 启动 ElasticJob 和 ScalePlan 的控制器实现代码： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 // 创建 ElasticJob 的控制器 if err = controllers.NewElasticJobReconciler(mgr, masterImage).SetupWithManager(mgr); err != nil { setupLog.Error(err, "unable to create controller", "controller", "ElasticJob") os.Exit(1) } // 创建 ScalePlan 的控制器 if err = controllers.NewScalePlanReconciler(mgr).SetupWithManager(mgr); err != nil { setupLog.Error(err, "unable to create controller", "controller", "ScalePlan") os.Exit(1) } // 启动控制器 if err := mgr.Start(ctrl.SetupSignalHandler()); err != nil { setupLog.Error(err, "problem running manager") os.Exit(1) } 这部分代码是

使用 DLRover 托管作业进行弹性、容错训练

📅 2024年08月17日 · ☕ 12 分钟

1. 分布式训练面临的问题预估训练资源困难，无法自动化需要多少算力、需要多少时间、需要多少带宽、需要多少 CPU、需要多少内存，如果没有足够的积累，很难估算准确。导致的结果就是，超额申请、超额分配，造成极大的资源浪费。需要去沉淀和提供解决方案。故

开发了一个 Copilot 用来处理运维故障

📅 2024年08月14日 · ☕ 9 分钟

本篇内容主要来自内部的一次分享，也是最近工作的一些总结。 1. 常见的故障处理流程如上图是一次典型的运维异常处理流程。按照时间线，有如下关键时间点: 发生故障发现故障响应故障定位故障恢复故障发生故障到发现故障，指的是被系统检测到，主要涉及到指标的采

将 JuiceFS 元数据从 Redis 迁移到 PGSQL

📅 2024年08月12日 · ☕ 2 分钟

1. 为什么将元数据存储从 Redis 迁移到 PGSQL PGSQL 成本低 Redis 使用内存存储元数据，PGSQL 使用磁盘存储元数据，成本差异显而易见。 PGSQL 性能可调节不同的 PGSQL 提供了不同的性能 IOPS。如果对性能没有持续高的要求，使用 PGSQL 是不错的选择。 PGSQL 存储上限更高如果按照元数据大小估算

博文