Skip to main content

使用 XPU 安装

vLLM 最初在 Intel GPU 平台上支持基本模型推理和服务。

依赖环境
使用 Dockerfile 快速开始
从源代码构建

依赖环境

操作系统：Linux
支持的硬件：英特尔数据中心 GPU（英特尔 ARC GPU WIP）
OneAPI 要求：oneAPI 2024.1

使用 Dockerfile 快速开始

docker build -f Dockerfile.xpu -t vllm-xpu-env --shm-size=4g .
docker run -it \
             --rm \
             --network=host \
             --device /dev/dri \
             -v /dev/dri/by-path:/dev/dri/by-path \
             vllm-xpu-env

从源代码构建

首先，安装所需的驱动程序和 intel OneAPI 2024.1 (或更高版本)。
其次，安装用于 vLLM XPU 后端构建的 Python 包:

source /opt/intel/oneapi/setvars.sh
pip install --upgrade pip
pip install -v -r requirements-xpu.txt 

最后，构建并安装 vLLM XPU 后端:

VLLM_TARGET_DEVICE=xpu python setup.py install

注意

FP16 是当前 XPU 后端的默认数据类型，未来将支持 BF16 数据类型。

依赖环境
使用 Dockerfile 快速开始
从源代码构建