Version: Next

使用 CoreWeave 的 Tensorizer 加载模型

vLLM 支持使用 CoreWeave 的 Tensorizer 加载模型。vLLM 模型张量可以被序列化到磁盘、HTTP/HTTPS 端点或 S3 端点，并在运行时极快地直接反序列化到 GPU，从而显著缩短 Pod 启动时间并减少 CPU 内存使用。同时，Tensorizer 还支持张量加密。

有关 CoreWeave 的 Tensorizer 的更多信息，请参阅 CoreWeave 的 Tensorizer 文档。有关如何序列化 vLLM 模型、以及将 Tensorizer 与 vLLM 结合使用的通用指南，请参阅 vLLM 示例脚本。

注意： 请注意，使用此功能需要安装 tensorizer，您可以通过运行 pip install vllm[tensorizer] 来完成安装。