Posts

容器化部署 DeepSeek 3FS 存储系统

📅 2025年03月15日 · ☕ 7 分钟

1. 部署方案在开始容器化部署之前，先提几点要求: 为了简化交付，只需要一个镜像为了可靠性，尽可能多副本部署通过不同的参数启动不同的服务通过环境变量注入配置，渲染到配置文件中下面是 DeepSeek 3FS 的部署方案: 需要部署: 一个 Monitor 用来收集监控数据，数据存储在 ClickHouse 中一

1. 硬件测试有两块 NVMe SSD SAMSUNG MZQL27T6HBLA-00A07，两个节点组成的 3FS 集群，每个节点有 4 个 IB 网口。 1.1 单线程磁盘 FIO 128 K，读 1 fio -numjobs=1 -fallocate=none -iodepth=2 -ioengine=libaio -direct=1 -rw=read -bs=128K --group_reporting -size=100M -time_based -runtime=30 -name=fio-test -directory=/data/fio 1 Jobs: 1 (f=1): [R(1)][100.0%][r=2211MiB/s][r=17.7k IOPS][eta 00m:00s] 磁盘 FIO 128 K，写 1 fio -numjobs=1 -fallocate=none -iodepth=2 -ioengine=libaio -direct=1 -rw=write -bs=128K --group_reporting -size=100M -time_based -runtime=30 -name=fio-test -directory=/data/fio 1 Jobs: 1 (f=1): [W(1)][100.0%][w=3703MiB/s][w=29.6k IOPS][eta 00m:00s] 磁盘 FIO 4 M，

在 Kubernetes 中使用 Fluid 挂载 3FS 存储及性能测试

📅 2025年03月09日 · ☕ 6 分钟

1. 为什么要将 3FS 对接到 Fluid 3FS 是 DeepSeek 开源的分布式存储系统，因其极优异的性能测试结果，而被津津乐道，star 量快速飙升。我所在的团队也对 3FS 展开了技术上的跟踪，寻找合适的应用场景，发挥 AI 硬件基础设施的最大价值。我们线上推理、训练服务使用的存储系统都是通

NFS Over RDMA

📅 2025年03月06日 · ☕ 3 分钟

1. 前置条件存储与使用存储的节点组成 RDMA 网络 RDMA 设备配置了 IP 地址如果使用的是 Mellanox 网卡，在安装驱动时需要加上参数 -with-nfsrdma 1 ./mlnxofedinstall --with-nfsrdma 2. 服务端启动安装依赖 1 apt install nfs-kernel-server rdma-core -y 加载内核模块 1 modprobe svcrdma 将端口加入 portlist 1 echo 'rdma 20049' | tee /proc/fs/nfsd/portlist 挂载目录 1 mkdir /data1/nfs 1 2 3 vim /etc/exports /data1/nfs *(rw,sync,no_root_squash,no_all_squash) 启动 NFS 服务 1 systemctl start nfs-server.service 检测挂载

kubectl logs 无法查看 Pod 日志报错 NotFound

📅 2025年02月22日 · ☕ 1 分钟

1. 现象能查看 Pod 的信息 1 2 3 4 kubectl -n my-testns get pod my-testpod NAME READY STATUS RESTARTS AGE my-testpod 1/1 Running 0 2d13h 不能查看 Pod 的日志 1 2 3 kubectl -n my-testns logs my-testpod -f Error from server (NotFound): the server could not find the requested resource ( pods/log my-testpod) 在 Pod 所在主机上可以通过 docker logs 查看容器日志。测试 Kubelet 的健康状态 OK 1 curl -k https://x.x.x.x:10250/healthz 这里要使用主机的 IP 地址，kubectl logs 命名会直接