Qwen2.5-7B用vLLM部署，显存占用比预期高20%，正常吗？

来自通义千问，作者显卡又报警了，评论 2 条。

刚在3090上部署Qwen2.5-7B，用vLLM的tensor并行，显存占用直接飙到18G左右。看官方文档说14B以下单卡应该够用，这情况正常吗？对比Ollama部署，显存占用倒是稳定在12G左右，但吞吐量差一截。vLLM的PagedAttention按理说能优化显存，实际跑起来感觉还是吃资源。有没有同样用vLLM部署Qwen的兄弟？你们显存占用多少...