vLLM部署Qwen2.5-7B,显存占用比预期高不少,大家有类似情况吗?

来自 通义千问,作者 显卡又报警了,评论 0 条。

最近在本地用vLLM部署Qwen2.5-7B-Instruct,环境是单卡3090 24G。按说7B模型理论显存应该很宽松,但实际跑起来,开个fp16,batch size设到8,显存就冲到20G了,离爆显存就差一口气。吞吐倒是还行,能到150 tokens/s左右。 对比之前部署Llama3-8B,类似配置下显存占用反而更温和。不知道是不是Qwen2.5...

最近在本地用vLLM部署Qwen2.5-7B-Instruct,环境是单卡3090 24G。按说7B模型理论显存应该很宽松,但实际跑起来,开个fp16,batch size设到8,显存就冲到20G了,离爆显存就差一口气。吞吐倒是还行,能到150 tokens/s左右。 对比之前部署Llama3-8B,类似配置下显存占用反而更温和。不知道是不是Qwen2.5的attention实现或者vLLM的适配还有优化空间?还是我哪里配置得不对? 另外,如果考虑生产环境部署,要兼顾延迟和吞吐,大家一般怎么权衡batch size和max model len?感觉稍微开大点,显存就绷不住。有没有试过用量化版本来部署的?比如GPTQ或者AWQ,实际推理速度和精度损失怎么样?