vLLM 和 Ollama 部署小模型,显存占用差这么多正常吗?

来自 DeepSeek,作者 显卡又报警了,评论 4 条。

最近在测几个 7B 级别的开源模型,用 vLLM 和 Ollama 分别部署了同一个 Qwen2.5-7B。结果 vLLM 那边显存吃了快 16G,Ollama 这边才 10G 出头。吞吐倒是 vLLM 高一些,但日常内部工具用,这点吞吐提升感觉不值多占的 6G 显存。 都是 FP16,prompt 长度也控制了。vLLM 的 PagedAttention...

最近在测几个 7B 级别的开源模型,用 vLLM 和 Ollama 分别部署了同一个 Qwen2.5-7B。结果 vLLM 那边显存吃了快 16G,Ollama 这边才 10G 出头。吞吐倒是 vLLM 高一些,但日常内部工具用,这点吞吐提升感觉不值多占的 6G 显存。 都是 FP16,prompt 长度也控制了。vLLM 的 PagedAttention 按理说应该更省显存才对,是不是我哪里配置有问题?还是说小模型上 vLLM 的优势本来就不明显,反而因为调度开销显存占用更高? 有同样折腾过的兄弟吗?主要考虑成本,如果 Ollama 够用就不想上 vLLM 了,省下来的显存还能多开几个服务实例。