容器下使用 Triton Server 和 TensorRT-LLM 进行大模型推理
· ☕ 8 分钟
1. TensorRT-LLM 编译模型 1.1 TensorRT-LLM 简介 使用 TensorRT 时,通常需要将模型转换为 ONNX 格式,再将 ONNX 转换为 TensorRT 格式,然后在 TensorRT、Triton Server 中进行推理。 但这个转换过程并不简单,经常会遇到各种报错,需要对模型结构、平台算子有一定的掌握,具备转换和调试能力。而 TensorRT-LLM 的目标

nvidia-smi 基本使用
· ☕ 5 分钟
1. 什么是 nvidia-smi nvidia-smi 全称是 NVIDIA System Management Interface,是 NVIDIA 提供的管理和监控 GPU 的接口。 nvidia-smi 调用的是 NVML。NVML 全称是 NVIDIA Management Library,提供了一组 C API,用于 NVIDIA GPU 监控和管理的库。 1.1 可查询的状态 ECC 错误计数 GPU 利用率 活动计算进程 时钟和 PState 温度和风扇速度 电

使用 Fluid 和 JuiceFS 在 Kubernetes 管理数据
· ☕ 4 分钟
1. Fluid 简介 下面是来源于 https://github.com/fluid-cloudnative/fluid 的 Fluid 的架构图: Fluid 抽象了两个概念: Dataset,数据集合,用户视角的抽象 Runtime,数据存储、加速等真实服务的抽象 Fluid 主要解决了传统缓存系统在 Kubernetes 上使用的问题: 通过 CRD 对数据集合 Dataset 进行描述,提供生命周期管理 依赖于 Runtime 后端,

JuiceFS 社区版、企业版、Dragonfly 集成性能测试及对比
· ☕ 6 分钟
请注意文中的 --block-size 4096 为 4GB,如果使用 --block-size 4 会更合理,在写数据性能上会更好。 1. 环境准备 进入一个安全目录 1 mkdir -p /data/test && cd /data/test 在这个目录下完成全部的测试任务。 给 Redis 单独建一个目录 1 mkdir redis-data 建议新建一个目录,因为 Redis 会将当前目录文件的 Owner 改成 systemd-cored

Pod 的健康检查耗尽 /run 存储空间,差点卷铺盖走人
· ☕ 3 分钟
使用 nvidia-container-runtime 的朋友可以重点关注下,特别是还有 JuiceFS 的情况。 1. 突然收到告警,我慌了 周末,学习 TensorRT LLM,顺便给线上最大的正式集群安装了一下 Dragonfly,然后就去买菜了。 下午发现有个节点的 Dragonfly Daemon 没起来,一直告警,就去所在节点重启了下 Kubelet。 大约