vLLM 是一个快速且易于使用的库，专为大型语言模型 (LLM) 的推理和部署而设计

vLLM 采用独特的 PagedAttention 技术和动态批处理机制，且支持并行采样、波束搜索等多种解码算法，极大提升了服务吞吐量和响应速度

创新的内存管理与执行架构，通过将 kv 缓存分割为若干块进行精细管理，把内存浪费控制在序列的最后一块，能实现接近最优的内存使用且支持内存共享，浪费比例低至不到 4%

vLLM 可无缝集成各类模型，兼容 NVIDIA、AMD、Intel 等多种硬件平台 GPU 和 CPU，并提供简洁的接口和文档，易于上手