Kubernetes
Volcano 使用基础
· ☕ 5 分钟
1. Volcano 简介 Volcano 是华为开源的一个基于 Kubernetes 的资源调度系统,相较于原生的调度器,具有的显著特点有: 支持 gang scheduling 对于批量作业的调度,容易碰到死锁的问题,比如两个作业都需要同时运行 10 个 Pod 才能启动,当两个作业同时提交时,可能都只有部分 Pod 被调度,两个作业都无法正常

Ops 新增 Server 及 UI 服务
· ☕ 2 分钟
1. 什么是 Ops 项目 我在之前的文章中介绍过一个常用的 Ops 工具。 Ops 的设计理念在于,运维工具的核心在于文本分发和脚本执行,实现了这两种能力就能够满足运维的功能诉求。 目前我主要的运维对象是 Host 主机、Kubernetes 集群,因此在 OpsObject 层实现了 Host 和 Cluster 对象,分别

kind 实用指南
· ☕ 2 分钟
1. 项目简介 kind 是使用容器管理 Kubernetes 集群的工具。项目地址 https://github.com/kubernetes-sigs/kind 。 主要用在: 本地开发环境 学习时的临时环境 自动化测试 2. 安装 kind macOS 1 brew install kind Linux 1 2 curl -Lo /usr/local/bin/kind https://kind.sigs.k8s.io/dl/v0.21.0/kind-linux-amd64 chmod +x /usr/local/bin/kind 3. 创建 kind 集群 如果你本地配置有 PROXY,在创建之间建议重新设置一下环境变量: 1 2 export https_proxy=http://x.x.x.x:7890 export http_proxy=http://x.x.x.x:7890 本地代理通常设

Kubernetes 集群中 AI 相关的采集器
· ☕ 12 分钟
1. dcgm-exporter dcgm-exporter 是 NVIDIA 官方社区提供的 GPU 监控工具。 项目地址 https://github.com/NVIDIA/dcgm-exporter 1.1 安装方式 添加 Helm 镜像仓库 1 helm repo add gpu-helm-charts https://nvidia.github.io/dcgm-exporter/helm-charts 1 helm repo update 安装 1 2 3 4 5 6 helm install dcgm-exporter gpu-helm-charts/dcgm-exporter --namespace monitor --create-namespace \ --set serviceMonitor.enabled=false \ --set image.repository=hubimage/nvidia-dcgm-exporter \ --set image.tag=3.3.3-3.3.0-ubuntu22.04 \ --set nodeSelector."accelerator\/provider"=nvidia-gpu \ --version 3.3.1 需要给 NVIDIA GPU 节点打上标签 1 kubectl label node <node-name> accelerator/provider=nvidia-gpu 1.2 指标 GPU 利用率 指标名称 指标类型 单位 描述 DCGM_FI_DEV_GPU_UTIL Gauge % GPU 利用率 DCGM_FI_DEV_MEM_COPY_UTIL Gauge

源码分析 Kubernetes 对 Pod IP 的管理
· ☕ 9 分钟
1. kube-controller-manager 对网段的管理 在 kube-controller-manager 有众多控制器,与 Pod IP 相关的是 NodeIpamController。 NodeIpamController 控制器主要是管理节点的 podcidr,当有新节点加入集群时,分配一个子网段给节点;当节点删除时,回收子网段。 每个节点的子网段不会重叠,每个节点都能够独立