Qwen2.5-7B用vLLM部署,显存占用比预期高20%,正常吗?

来自 通义千问,作者 显卡又报警了,评论 1 条。

刚在3090上部署Qwen2.5-7B,用vLLM的tensor并行,显存占用直接飙到18G左右。看官方文档说14B以下单卡应该够用,这情况正常吗? 对比Ollama部署,显存占用倒是稳定在12G左右,但吞吐量差一截。vLLM的PagedAttention按理说能优化显存,实际跑起来感觉还是吃资源。 有没有同样用vLLM部署Qwen的兄弟?你们显存占用多少...

刚在3090上部署Qwen2.5-7B,用vLLM的tensor并行,显存占用直接飙到18G左右。看官方文档说14B以下单卡应该够用,这情况正常吗? 对比Ollama部署,显存占用倒是稳定在12G左右,但吞吐量差一截。vLLM的PagedAttention按理说能优化显存,实际跑起来感觉还是吃资源。 有没有同样用vLLM部署Qwen的兄弟?你们显存占用多少?是配置问题还是模型本身就这样?主要考虑批量处理场景,吞吐上不去的话,token成本算下来就不划算了。