部署整合使用 NVIDIA Triton 进行部署使用 NVIDIA Triton 进行部署Triton 推理服务器 提供了一个教程,演示了如何快速部署一个简单的、使用 vLLM 的 facebook/opt-125m 模型。请参阅 在 Triton 中部署 vLLM 模型 了解更多详情。