Triton

容器下使用 Triton Server 和 TensorRT-LLM 进行大模型推理

📅 2024年02月03日 · ☕ 8 分钟

1. TensorRT-LLM 编译模型 1.1 TensorRT-LLM 简介使用 TensorRT 时，通常需要将模型转换为 ONNX 格式，再将 ONNX 转换为 TensorRT 格式，然后在 TensorRT、Triton Server 中进行推理。但这个转换过程并不简单，经常会遇到各种报错，需要对模型结构、平台算子有一定的掌握，具备转换和调试能力。而 TensorRT-LLM 的目标