vLLM 和 Ollama 部署小模型，显存占用差这么多正常吗？

来自 DeepSeek，作者显卡又报警了，评论 4 条。

最近在测几个 7B 级别的开源模型，用 vLLM 和 Ollama 分别部署了同一个 Qwen2.5-7B。结果 vLLM 那边显存吃了快 16G，Ollama 这边才 10G 出头。吞吐倒是 vLLM 高一些，但日常内部工具用，这点吞吐提升感觉不值多占的 6G 显存。都是 FP16，prompt 长度也控制了。vLLM 的 PagedAttention 按理说应该更省显存才对，是不是我哪里配置有问题？还是说小模型上 vLLM 的优势本来就不明显，反而因为调度开销显存占用更高？有同样折腾过的兄弟吗？主要考虑成本，如果 Ollama 够用就不想上 vLLM 了，省下来的显存还能多开几个服务实例。