Skip to main content
Version: Next

欢迎来到 vLLM!

图片


vLLM 是一个快速、易于使用的 LLM 推理和服务库。

最初 vLLM 是在加州大学伯克利分校的天空计算实验室 (Sky Computing Lab) 开发的,如今已发展成为一个由学术界和工业界共同贡献的社区驱动项目。

vLLM 具有以下功能:

  • 最先进的服务吞吐量

  • 使用 PagedAttention 高效管理注意力键和值的内存

  • 连续批处理传入请求

  • 使用 CUDA/HIP 图实现快速执行模型

  • 量化:GPTQAWQ、INT4、INT8 和 FP8

  • 优化 CUDA 内核,包括与 FlashAttention 和 FlashInfer 的集成

  • 推测性解码

  • 分块预填充

vLLM 在以下方面非常灵活且易于使用:

  • 无缝集成流行的 HuggingFace 模型

  • 使用各种解码算法实现高吞吐量服务,包括并行采样束搜索

  • 支持张量并行和流水线并行的分布式推理

  • 流式输出

  • OpenAI 兼容 API 服务器

  • 支持 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU 和 GPU、PowerPC CPU、TPU 以及 AWS Neuron

  • 前缀缓存支持

  • 多 LoRA 支持

欲了解更多信息,请参阅以下内容:

文档

快速开始

安装
快速开始
示例
故障排除
常见问题
vLLM V1 用户指南

支持模型

支持模型列表
生成模型
池化模型
内置扩展

功能特性

量化
LoRA 适配器
工具调用
推理输出
结构化输出
自动前缀缓存
分离式预填充(实验性功能)
分离式预填充(实验性功能)
兼容矩阵

训练

Transformers 强化学习
RLHF 基于人类反馈的强化学习

推理与服务

离线推理
兼容 OpenAI 的服务器
多模态输入
分布式推理与服务
生产指标
引擎参数
环境变量
使用统计数据收集
外部集成

部署

使用 Docker
使用 Kubernetes
使用 Nginx
使用其他框架
外部集成

性能

优化与调优

基准测试套件

设计文档

架构概览

与 HuggingFace 集成

vLLM 插件系统

vLLM 分页注意力

多模态数据处理

自动前缀缓存

  • 通用缓存策略

Python 多进程

V1 设计文档

vLLM 的 torch.compile 集成

自动前缀缓存

指标

开发者指南

为 vLLM 做出贡献

vLLM 性能分析

Dockerfile

添加新模型

漏洞管理

API 参考

离线推理

vLLM 引擎

-推理参数

模型开发

  • 子模块

社区

vLLM 博客
vLLM 会议
赞助商