欢迎来到 vLLM!
vLLM 是一个快速、易于使用的 LLM 推理和服务库。
最初 vLLM 是在加州大学伯克利分校的天空计算实验室 (Sky Computing Lab) 开发的,如今已发展成为一个由学术界和工业界共同贡献的社区驱动项目。
vLLM 具有以下功能:
-
最先进的服务吞吐量
-
使用 PagedAttention 高效管理注意力键和值的内存
-
连续批处理传入请求
-
使用 CUDA/HIP 图实现快速执行模型
-
优化 CUDA 内核,包括与 FlashAttention 和 FlashInfer 的集成
-
推测性解码
-
分块预填充
vLLM 在以下方面非常灵活且易于使用:
-
无缝集成流行的 HuggingFace 模型
-
使用各种解码算法实现高吞吐量服务,包括并行采样、束搜索等
-
支持张量并行和流水线并行的分布式推理
-
流式输出
-
OpenAI 兼容 API 服务器
-
支持 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU 和 GPU、PowerPC CPU、TPU 以及 AWS Neuron
-
前缀缓存支持
-
多 LoRA 支持
欲了解更多信息,请参阅以下内容:
-
vLLM announcing blog post (PagedAttention 教程)
-
vLLM paper (SOSP 2023)
-
How continuous batching enables 23x throughput in LLM inference while reducing p50 latency by Cade Daniel et al.
文档
快速开始
安装
快速开始
示例
故障排除
常见问题
vLLM V1 用户指南
支持模型
功能特性
量化
LoRA 适配器
工具调用
推理输出
结构化输出
自动前缀缓存
分离式预填充(实验性功能)
分离式预填充(实验性功能)
兼容矩阵
训练
Transformers 强化学习
RLHF 基于人类反馈的强化学习
推理与服务
离线推理
兼容 OpenAI 的服务器
多模态输入
分布式推理与服务
生产指标
引擎参数
环境变量
使用统计数据收集
外部集成
部署
使用 Docker
使用 Kubernetes
使用 Nginx
使用其他框架
外部集成
性能
设计文档
- 通用缓存策略
V1 设计文档
开发者指南
API 参考
-推理参数
- 子模块