AI
nvidia-smi 基本使用
· ☕ 5 分钟
1. 什么是 nvidia-smi nvidia-smi 全称是 NVIDIA System Management Interface,是 NVIDIA 提供的管理和监控 GPU 的接口。 nvidia-smi 调用的是 NVML。NVML 全称是 NVIDIA Management Library,提供了一组 C API,用于 NVIDIA GPU 监控和管理的库。 1.1 可查询的状态 ECC 错误计数 GPU 利用率 活动计算进程 时钟和 PState 温度和风扇速度 电

使用 Fluid 和 JuiceFS 在 Kubernetes 管理数据
· ☕ 4 分钟
1. Fluid 简介 下面是来源于 https://github.com/fluid-cloudnative/fluid 的 Fluid 的架构图: Fluid 抽象了两个概念: Dataset,数据集合,用户视角的抽象 Runtime,数据存储、加速等真实服务的抽象 Fluid 主要解决了传统缓存系统在 Kubernetes 上使用的问题: 通过 CRD 对数据集合 Dataset 进行描述,提供生命周期管理 依赖于 Runtime 后端,

使用 Dragonfly V2 分发集群的镜像
· ☕ 7 分钟
1. Dragonfly 简介 Dragonfly 的相关文档在社区 https://d7y.io/zh/docs/ 已经有详细说明。这里只是简单介绍一下,V2 版本的主要组件: Manager,提供 UI 界面、用户管理、集群监控、任务管理等功能 Scheduler,调度 Peer 之间的流量、提供预热等功能 Seed Peer,回源节点,用于从源站(Har

Nydus 懒加载镜像配置与实践
· ☕ 5 分钟
据统计容器中的大部分文件不会被使用。根据这一特征,Nydus 自定义了 Rafs 格式的文件系统,实现了镜像文件的按需加载,以解决大镜像导致的启动慢和占用存储的问题。而在 AI 场景下,无论是推理还是训练,镜像常常都是几个 G 起步,甚至几十个 G,Nydus 非常

NVIDIA GPU 驱动安装
· ☕ 5 分钟
1. 安装驱动 1.1 查看系统是否识别显卡 1 2 3 4 lspci | grep -i vga 03:00.0 VGA compatible controller: NVIDIA Corporation GP102 [TITAN X] (rev a1) 0a:00.0 VGA compatible controller: Matrox Electronics Systems Ltd. G200eR2 (rev 01) 识别出显卡为 NVIDIA 的 TITAN X。 1.2 禁用 nouveau 1 lsmod | grep nouveau 如果有输出,说明 nouveau 已经加载,需要禁用。如果没有输出,则可以跳过此操作。 Ubuntu 系统 关闭自动更新 1 sed -i.bak 's/1/0/' /etc/apt/apt.conf.d/10periodic 编辑配置