AI – 陈少文的网站

在 Kubernetes 下创建后端为 JuiceFS 的 PVC

📅 2024年03月07日 · ☕ 2 分钟

本篇主要记录创建社区版 JuiceFS PVC 的脚本，方便快速配置。组件部署可以参考使用 Fluid 和 JuiceFS 在 Kubernetes 管理数据。 1. 设置环境变量桶的配置 1 2 3 4 5 6 export ACCESS_KEY= export SECRET_KEY= export BUCKET= export ENDPOINT=ks3-cn-beijing-internal.ksyun.com export BUCKET_ENPOINT=$BUCKET.$ENDPOINT export PROVIDER=ks3 Workload 的配置 1 2 3 4 5 export NAMESPACE= export PVC_NAME= export NODE_SELECTOR_KEY= export NODE_SELECTOR_VALUE= 镜像的配置 export JUICEFS_IMAGE=juicedata/juicefs-fuse export DEMO_IMAGE=shaowenchen/demo-ubuntu 元数据的配置如果是 Redis 配置 1 2 3 4 export REDIS_PASSWORD= #ip:port/database export REDIS_ENDPOINT=

使用 TensorRT 加速模型推理

📅 2024年02月06日 · ☕ 5 分钟

1. 什么是 TensorRT TensorRT 是一个 C++ 库，主要用在 NVIDIA GPU 进行高性能的推理加速上，提供了 C++ API 和 Python API 用于集成。 TensorRT 支持的主流深度学习框架有: Caffe，TensorRT 可以直接读取 prototxt 格式 TensorFlow，需要将 TensorFlow 的 pb 转换为 uff 格式 PyTorch，需要将 PyTorch 的 pth 格式转

Kubernetes 集群中 AI 相关的采集器

📅 2024年02月04日 · ☕ 12 分钟

1. dcgm-exporter dcgm-exporter 是 NVIDIA 官方社区提供的 GPU 监控工具。项目地址 https://github.com/NVIDIA/dcgm-exporter 1.1 安装方式添加 Helm 镜像仓库 1 helm repo add gpu-helm-charts https://nvidia.github.io/dcgm-exporter/helm-charts 1 helm repo update 安装 1 2 3 4 5 6 helm install dcgm-exporter gpu-helm-charts/dcgm-exporter --namespace monitor --create-namespace \ --set serviceMonitor.enabled=false \ --set image.repository=hubimage/nvidia-dcgm-exporter \ --set image.tag=3.3.3-3.3.0-ubuntu22.04 \ --set nodeSelector."accelerator\/provider"=nvidia-gpu \ --version 3.3.1 需要给 NVIDIA GPU 节点打上标签 1 kubectl label node <node-name> accelerator/provider=nvidia-gpu 1.2 指标 GPU 利用率指标名称指标类型单位描述 DCGM_FI_DEV_GPU_UTIL Gauge % GPU 利用率 DCGM_FI_DEV_MEM_COPY_UTIL Gauge

容器下使用 Triton Server 和 TensorRT-LLM 进行大模型推理

📅 2024年02月03日 · ☕ 8 分钟

1. TensorRT-LLM 编译模型 1.1 TensorRT-LLM 简介使用 TensorRT 时，通常需要将模型转换为 ONNX 格式，再将 ONNX 转换为 TensorRT 格式，然后在 TensorRT、Triton Server 中进行推理。但这个转换过程并不简单，经常会遇到各种报错，需要对模型结构、平台算子有一定的掌握，具备转换和调试能力。而 TensorRT-LLM 的目标

nvidia-smi 基本使用

📅 2024年02月01日 · ☕ 5 分钟

1. 什么是 nvidia-smi nvidia-smi 全称是 NVIDIA System Management Interface，是 NVIDIA 提供的管理和监控 GPU 的接口。 nvidia-smi 调用的是 NVML。NVML 全称是 NVIDIA Management Library，提供了一组 C API，用于 NVIDIA GPU 监控和管理的库。 1.1 可查询的状态 ECC 错误计数 GPU 利用率活动计算进程时钟和 PState 温度和风扇速度电