量化内核支持的硬件
下表展示了 vLLM 中各种量化实现与不同硬件平台的兼容性情况:
Implementation | Volta | Turing | Ampere | Ada | Hopper | AMD GPU | Intel GPU | x86 CPU | AWS Inferentia | Google TPU |
---|---|---|---|---|---|---|---|---|---|---|
AWQ | ✗ | ✅︎ | ✅︎ | ✅︎ | ✅︎ | ✗ | ✗ | ✅︎ | ✗ | ✗ |
GPTQ | ✅︎ | ✅︎ | ✅︎ | ✅︎ | ✅︎ | ✗ | ✗ | ✗ | ✗ | ✗ |
Marlin (GPTQ/AWQ/FP8) | ✗ | ✗ | ✅︎ | ✅︎ | ✅︎ | ✗ | ✗ | ✗ | ✗ | ✗ |
INT8 (W8A8) | ✗ | ✅︎ | ✅︎ | ✅︎ | ✅︎ | ✗ | ✗ | ✅︎ | ✗ | ✗ |
FP8 (W8A8) | ✗ | ✗ | ✗ | ✅︎ | ✅︎ | ✅︎ | ✗ | ✗ | ✗ | ✗ |
AQLM | ✅︎ | ✅︎ | ✅︎ | ✅︎ | ✅︎ | ✗ | ✗ | ✗ | ✗ | ✗ |
bitsandbytes | ✅︎ | ✅︎ | ✅︎ | ✅︎ | ✅︎ | ✗ | ✗ | ✗ | ✗ | ✗ |
DeepSpeedFP | ✅︎ | ✅︎ | ✅︎ | ✅︎ | ✅︎ | ✗ | ✗ | ✗ | ✗ | ✗ |
GGUF | ✅︎ | ✅︎ | ✅︎ | ✅︎ | ✅︎ | ✗ | ✗ | ✗ | ✗ | ✗ |
注意:
-
Volta 对应 SM 7.0,Turing 对应 SM 7.5,Ampere 对应 SM 8.0/8.6,Ada 对应 SM 8.9,Hopper 对应 SM 9.0。