陈少文的网站

AI 芯片高速互连方案

📅 2024年03月19日 · ☕ 6 分钟

最近在研习模型训练相关的基础设施，发现 AI 芯片互连拓扑决定着训练集群任务的调度和资源分配，因此花了一点时间整理了一下常见的 AI 芯片互连方案。 1. 点对点互连传统的 PCIe 系统下， AI 芯片与 AI 芯片之间的数据传输是通过 PCIe 传输，无法满足大规模数据传输的要求。 1.1 NVLink

处理故障时，参考或者记录下的内容，持续更新中 1. XID 错误事件 XID 是 NVIDIA 的错误码，可以通过命令: 1 dmesg -T | grep -i "NVRM: Xid" 或者 1 journalctl --since `date -d "10 days ago" "+%Y-%m-%d"`|grep Xid 根据 XID 可以定位故障，下面是一些常见的 XID 事件 XID 说明 13 Graphics Engine Exception。通常是数组越界、指令错误,小概率是硬件问

用了一个月，终于找到点写 AI Agent 的思路

📅 2024年03月16日 · ☕ 9 分钟

1. 不断尝试落地 AI 应用端基于对运维的认知，我开发了一个开源的运维工具 https://github.com/shaowenchen/ops 。 Ops 工具将运维操作划分为脚本执行、文件分发两类，而运维对象主机和 Kubernetes 集群分别都实现了这两种运维操作。 Ops 对外提供的能力有，Ops Cli 命令行终端，Ops Server 服务端 API 接口，Ops Controller 集群

在 Kubernetes 下创建后端为 JuiceFS 的 PVC

📅 2024年03月07日 · ☕ 2 分钟

本篇主要记录创建社区版 JuiceFS PVC 的脚本，方便快速配置。组件部署可以参考使用 Fluid 和 JuiceFS 在 Kubernetes 管理数据。 1. 设置环境变量桶的配置 1 2 3 4 5 6 export ACCESS_KEY= export SECRET_KEY= export BUCKET= export ENDPOINT=ks3-cn-beijing-internal.ksyun.com export BUCKET_ENPOINT=$BUCKET.$ENDPOINT export PROVIDER=ks3 Workload 的配置 1 2 3 4 5 export NAMESPACE= export PVC_NAME= export NODE_SELECTOR_KEY= export NODE_SELECTOR_VALUE= 镜像的配置 export JUICEFS_IMAGE=juicedata/juicefs-fuse export DEMO_IMAGE=shaowenchen/demo:ubuntu 元数据的配置如果是 Redis 配置 1 2 3 4 export REDIS_PASSWORD= #ip:port/database export REDIS_ENDPOINT=

Argo 核心组件介绍

📅 2024年02月23日 · ☕ 5 分钟

1. argo 介绍 Argo 是一个开源项目，它在 Kubernetes 上提供了一系列工具，用于构建和运行应用程序。Argo 的核心组件主要包括以下几个： Argo CD Argo CD 是一个基于 GitOps 的持续交付工具，它允许用户声明式地管理 Kubernetes 集群中的应用部署。Argo CD 通过与 Git 仓库同步，确保集群状态与 Git 仓库中