Skip to main content

vLLM 中文站

vLLM 是一个快速且易于使用的库,专为大型语言模型 (LLM) 的推理和部署而设计

Easy to Use

高效的服务吞吐量

vLLM 采用独特的 PagedAttention 技术和动态批处理机制,且支持并行采样、波束搜索等多种解码算法,极大提升了服务吞吐量和响应速度

Focus on What Matters

内存管理大师

创新的内存管理与执行架构,通过将 kv 缓存分割为若干块进行精细管理,把内存浪费控制在序列的最后一块,能实现接近最优的内存使用且支持内存共享,浪费比例低至不到 4%

Powered by React

灵活易用

vLLM 可无缝集成各类模型,兼容 NVIDIA、AMD、Intel 等多种硬件平台 GPU 和 CPU,并提供简洁的接口和文档,易于上手