vLLM部署Qwen2.5-32B,吞吐上去了但延迟波动大,大家有遇到吗?

来自 AI综合区,作者 显卡又报警了,评论 1 条。

最近在测Qwen2.5-32B-Instruct,用vLLM部署在A100 80G上。显存占用控制得还行,开了paged attention和连续批处理,吞吐量确实比直接用transformers高不少,单卡能到3000+ tokens/s。 但发现个问题:延迟不太稳定。短promt响应很快,但遇到长上下文或者并发请求一多,个别请求的延迟就会突然跳一下,能...

最近在测Qwen2.5-32B-Instruct,用vLLM部署在A100 80G上。显存占用控制得还行,开了paged attention和连续批处理,吞吐量确实比直接用transformers高不少,单卡能到3000+ tokens/s。 但发现个问题:延迟不太稳定。短promt响应很快,但遇到长上下文或者并发请求一多,个别请求的延迟就会突然跳一下,能从几十ms飙到几百ms。监控了GPU利用率和显存,也没看到明显瓶颈。 怀疑是不是vLLM的调度策略或者KV cache管理在特定负载下有抖动?有没有同样用vLLM部署大模型的朋友遇到过类似情况?是配置参数没调好,还是这工具本身在追求高吞吐时就得牺牲点延迟稳定性?另外,对比过TGI吗?哪个在生产环境更扛得住波动?