macOS / CPU 上安装 vllm
在 macOS (Apple Silicon M2) 上安装 vLLM 目前不完全支持,因为 vLLM 主要面向 Linux + NVIDIA GPU 环境,依赖 CUDA 和 PagedAttention 的 CUDA 实现。
卸载当前不兼容的二进制包
pip uninstall vllm -y
使用 llama.cpp(量化 + Metal加速)
1.原生支持 Apple Silicon,用 Metal 加速。
使用 MLX(Apple 官方框架)
2.Apple 专为 M 系列芯片优化的机器学习框架。
支持类似 PyTorch 的 API,可运行 LLM 推理。
3.使用 Hugging Face Transformers + MPS