指标 – 陈少文的网站

Kubernetes 集群中 AI 相关的采集器

📅 2024年02月04日 · ☕ 12 分钟

1. dcgm-exporter dcgm-exporter 是 NVIDIA 官方社区提供的 GPU 监控工具。项目地址 https://github.com/NVIDIA/dcgm-exporter 1.1 安装方式添加 Helm 镜像仓库 1 helm repo add gpu-helm-charts https://nvidia.github.io/dcgm-exporter/helm-charts 1 helm repo update 安装 1 2 3 4 5 6 helm install dcgm-exporter gpu-helm-charts/dcgm-exporter --namespace monitor --create-namespace \ --set serviceMonitor.enabled=false \ --set image.repository=hubimage/nvidia-dcgm-exporter \ --set image.tag=3.3.3-3.3.0-ubuntu22.04 \ --set nodeSelector."accelerator\/provider"=nvidia-gpu \ --version 3.3.1 需要给 NVIDIA GPU 节点打上标签 1 kubectl label node <node-name> accelerator/provider=nvidia-gpu 1.2 指标 GPU 利用率指标名称指标类型单位描述 DCGM_FI_DEV_GPU_UTIL Gauge % GPU 利用率 DCGM_FI_DEV_MEM_COPY_UTIL Gauge

如何查看 Tekton 的流水线指标

📅 2022年06月07日 · ☕ 3 分钟

1. 抓取 Tekton Metrics 新增 ConfigMap 配置文件 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 cat <<EOF | kubectl apply -f - apiVersion: v1 kind: ConfigMap metadata: name: config-observability namespace: tekton-pipelines labels: app.kubernetes.io/instance: default app.kubernetes.io/part-of: tekton-pipelines data: metrics.backend-destination: prometheus metrics.taskrun.level: "task" metrics.taskrun.duration-type: "histogram" metrics.pipelinerun.level: "pipeline" metrics.pipelinerun.duration-type: "histogram" EOF 修改 data 中的配置，会改变上报指标的粒度，甚至会严重影响 Prometheus 的性能，需要谨慎修改。重启 Tekton 1 kubectl -n tekton-pipelines rollout restart deployment tekton-pipelines-controller [可选] 将 tekton-pipelines-controller 设置为 NodePort

如何采集 Kubernetes 对象的 labels 和 annotations

📅 2022年06月02日 · ☕ 2 分钟

1. 为什么需要 kube-status-metrics Kubernetes 的监控主要关注两类指标: 基础性能指标 CPU、内存、磁盘、网络等指标，可以通过 DaemonSet 部署 node-exporter，由 Prometheus 抓取相关指标。资源对象指标 Deployment 的副本数量、Pod 的运行状态等。这些指标需要 kube-status-metrics 轮询 Kubernetes 的 API 查询，并暴露给 Prometheus 才能够看到

Thanos 进阶使用指南

📅 2022年03月28日 · ☕ 4 分钟

1. 使用 Query 聚合数据如上图，Thanos Query 可以对接的组件有： Thanos Store Gateway Thanos Query Thanos Receive Prometheus，借助于 Sidecar 利用 Thanos Query 之间的级联，我们可以实现跨组件的关联查询，组建超大型的监控系统。这也意味着，每个对接的组件应该提供足够快的 Prometheus API。整个接口的响应时