vLLM部署Qwen2.5-7B，显存占用比预期高不少，大家有类似情况吗？

来自通义千问，作者显卡又报警了，评论 4 条。

最近在本地用vLLM部署Qwen2.5-7B-Instruct，环境是单卡3090 24G。按说7B模型理论显存应该很宽松，但实际跑起来，开个fp16，batch size设到8，显存就冲到20G了，离爆显存就差一口气。吞吐倒是还行，能到150 tokens/s左右。对比之前部署Llama3-8B，类似配置下显存占用反而更温和。不知道是不是Qwen2.5的attention实现或者vLLM的适配还有优化空间？还是我哪里配置得不对？另外，如果考虑生产环境部署，要兼顾延迟和吞吐，大家一般怎么权衡batch size和max model len？感觉稍微开大点，显存就绷不住。有没有试过用量化版本来部署的？比如GPTQ或者AWQ，实际推理速度和精度损失怎么样？