· ☕ 3 分钟
1. 前置条件 存储与使用存储的节点组成 RDMA 网络 RDMA 设备配置了 IP 地址 如果使用的是 Mellanox 网卡,在安装驱动时需要加上参数 -with-nfsrdma 1 ./mlnxofedinstall --with-nfsrdma 2. 服务端启动 安装依赖 1 apt install nfs-kernel-server rdma-core -y 加载内核模块 1 modprobe svcrdma 将端口加入 portlist 1 echo 'rdma 20049' | tee /proc/fs/nfsd/portlist 挂载目录 1 mkdir /data1/nfs 1 2 3 vim /etc/exports /data1/nfs *(rw,sync,no_root_squash,no_all_squash) 启动 NFS 服务 1 systemctl start nfs-server.service 检测挂载

kubectl logs 无法查看 Pod 日志报错 NotFound
· ☕ 1 分钟
1. 现象 能查看 Pod 的信息 1 2 3 4 kubectl -n my-testns get pod my-testpod NAME READY STATUS RESTARTS AGE my-testpod 1/1 Running 0 2d13h 不能查看 Pod 的日志 1 2 3 kubectl -n my-testns logs my-testpod -f Error from server (NotFound): the server could not find the requested resource ( pods/log my-testpod) 在 Pod 所在主机上可以通过 docker logs 查看容器日志。 测试 Kubelet 的健康状态 OK 1 curl -k https://x.x.x.x:10250/healthz 这里要使用主机的 IP 地址,kubectl logs 命名会直接

使用 Dante 提供 SOCKS5 转发
· ☕ 2 分钟
由于机房服务器绑定的带宽较小,本篇主要是借助 Dante 提供 SOCKS5 转发,借助一些大带宽的服务器进行流量转发,用以加快依赖包的下载速度。 1. 找一台大带宽的服务器 安装 speedtest-cli 1 pip3 install speedtest-cli 列出对端测试服务器 1 2 3 4 5 6 7 8 9 10 11 12 13 speedtest-cli --secure --list Retrieving speedtest.net configuration... 5396) China Telecom JiangSu 5G (Suzhou, China) [747.08 km] 16204) JSQY - Suzhou (Suzhou,

使用 Calico 限制 Pod 的带宽
· ☕ 3 分钟
1. 测试全部带宽 在目标主机上启动 iperf3 服务端 1 2 3 4 5 iperf3 -s ----------------------------------------------------------- Server listening on 5201 ----------------------------------------------------------- 在客户端主机上测试 1 iperf3 -c x.x.x.x -p 5201 -t 10 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Connecting to host x.x.x.x, port 5201 [ ID] Interval Transfer Bitrate Retr Cwnd [ 5] 0.00-1.00 sec 151 MBytes 1.27 Gbits/sec 3562 164 KBytes [ 5] 1.00-2.00 sec 134 MBytes 1.12 Gbits/sec 230 164 KBytes [ 5] 2.00-3.00 sec 124 MBytes 1.04 Gbits/sec 250 213 KBytes [ 5] 3.00-4.00 sec 122 MBytes 1.03 Gbits/sec 229

分布式计算框架 Ray
· ☕ 4 分钟
1. 什么是 Ray 2016 年,UC Berkeley 的 RISELab 发布了一个新的分布式计算框架 Ray。 2017 年,发布 Ray 相关论文之后,受到业内的广泛关注,国内主要是蚂蚁集团采用并贡献了 Ray。 2020 年,Ray 发布了 1.0 版本,引入 Placement Group 特性,增加了用户自定义任务编排的灵活性,为后续的 Ray AI Libraries 和 vLLM 等