Skip to main content

Version: Next

欢迎来到 vLLM！

vLLM 是一个快速、易于使用的 LLM 推理和服务库。

最初 vLLM 是在加州大学伯克利分校的天空计算实验室 (Sky Computing Lab) 开发的，如今已发展成为一个由学术界和工业界共同贡献的社区驱动项目。

vLLM 具有以下功能：

最先进的服务吞吐量
使用 PagedAttention 高效管理注意力键和值的内存
连续批处理传入请求
使用 CUDA/HIP 图实现快速执行模型
量化：GPTQ、AWQ、INT4、INT8 和 FP8
优化 CUDA 内核，包括与 FlashAttention 和 FlashInfer 的集成
推测性解码
分块预填充

vLLM 在以下方面非常灵活且易于使用：

无缝集成流行的 HuggingFace 模型
使用各种解码算法实现高吞吐量服务，包括并行采样、束搜索等
支持张量并行和流水线并行的分布式推理
流式输出
OpenAI 兼容 API 服务器
支持 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU 和 GPU、PowerPC CPU、TPU 以及 AWS Neuron
前缀缓存支持
多 LoRA 支持

欲了解更多信息，请参阅以下内容：

vLLM announcing blog post (PagedAttention 教程)
vLLM paper (SOSP 2023)
How continuous batching enables 23x throughput in LLM inference while reducing p50 latency by Cade Daniel et al.
vLLM 会议

文档

快速开始

安装
 快速开始
 示例
 故障排除
 常见问题
 vLLM V1 用户指南

支持模型

支持模型列表
 生成模型
 池化模型
 内置扩展

功能特性

量化
 LoRA 适配器
 工具调用
 推理输出
 结构化输出
 自动前缀缓存
 分离式预填充（实验性功能）
分离式预填充（实验性功能）
兼容矩阵

训练

Transformers 强化学习
 RLHF 基于人类反馈的强化学习

推理与服务

离线推理
 兼容 OpenAI 的服务器
 多模态输入
 分布式推理与服务
 生产指标
 引擎参数
 环境变量
 使用统计数据收集
 外部集成

部署

使用 Docker
使用 Kubernetes
使用 Nginx
使用其他框架
 外部集成

性能

优化与调优

基准测试套件

设计文档

与 HuggingFace 集成

vLLM 插件系统

vLLM 分页注意力

多模态数据处理

自动前缀缓存

通用缓存策略

Python 多进程

V1 设计文档

vLLM 的 torch.compile 集成

自动前缀缓存

开发者指南

为 vLLM 做出贡献

vLLM 性能分析

添加新模型

API 参考

子模块

社区

vLLM 博客
 vLLM 会议
 赞助商

文档