分布式计算框架 Ray
· ☕ 4 分钟
1. 什么是 Ray 2016 年,UC Berkeley 的 RISELab 发布了一个新的分布式计算框架 Ray。 2017 年,发布 Ray 相关论文之后,受到业内的广泛关注,国内主要是蚂蚁集团采用并贡献了 Ray。 2020 年,Ray 发布了 1.0 版本,引入 Placement Group 特性,增加了用户自定义任务编排的灵活性,为后续的 Ray AI Libraries 和 vLLM 等

以 Qwen 为例,学习大模型的结构
· ☕ 6 分钟
1. Qwen 模型介绍 2023 年 4 月,阿里巴巴推出 Qwen 的测试版。 2023 年 12 月,阿里巴巴开源了 Qwen 的第一个版本。 2024 年 9 月,阿里巴巴发布了 Qwen2.5。 2025 年 1 月,阿里巴巴发布了 Qwen 2.5-Max。 Qwen 2.5 是 Qwen 大语言模型的目前最新系列。之所以说是系列,是因为在训练完一个预训

NVIDIA 环境变量配置
· ☕ 2 分钟
NVIDIA_VISIBLE_DEVICES 指定程序可见的 GPU 设备 1 CUDA_VISIBLE_DEVICES=0,1 可用值: 1,2,以逗号分隔的 GPU UUID 或索引列表 all,所有 GPU none,加载驱动,但无法访问 GPU void,不加载驱动 NVIDIA_DRIVER_CAPABILITIES 控制哪些驱动程序库/二进制文件将被安装在容器内 1 NVIDIA_DRIVER_CAPABILITIES=compute,utility 可用值: compute,CUDA 和 OpenCL 应用程序所需。 co

Ascend 环境变量配置
· ☕ 3 分钟
HCCL_IF_IP 配置 HCCL 的初始化 root 通信网卡 IP 。 环境变量 HCCL_IF_IP > 环境变量 HCCL_SOCKET_IFNAME > docker/lo 以外网卡(网卡名字典序升序) > docker 网卡 > lo 网卡。 1 export HCCL_IF_IP=10.10.10.1 HCCL_IF_BASE_PORT 指定 Host 网卡起始端口号,配置后系统默认占用以该端口起始的 16 个端口进行集群信息收集,取值范围为[1024,65520] 。 1 export HCCL_IF_BASE_PORT=50000 HCCL_SOCKET_IFNAME HCCL 可通

Fluid 下的 Juicefs 企业版维护
· ☕ 3 分钟
1. 设置环境变量 1 2 export NAMESPACE=xxx export PVC=xxx 2. Dataset 无法就绪 2.1 Fluid 组件问题 1 kubectl -n fluid-system get pod -o wide | grep -v "Running" 可能出现没有正常启动的情况。 2.2 有异常的 Dataset 异常的资源可能导致 Fluid 资源不断重启,需要人工介入删除。 2.3 检查 Worker \ Fuse 副本 worker 副本 1 kubectl -n ${NAMESPACE} get sts -l release=${PVC} 1 kubectl -n ${NAMESPACE} get pod -l release=${PVC},role=juicefs-worker fuse 副本 1 kubectl -n kas-job get ds -l