vLLM部署Qwen2.5-32B，吞吐上去了但延迟波动大，大家有遇到吗？

来自 AI综合区，作者显卡又报警了，评论 4 条。

最近在测Qwen2.5-32B-Instruct，用vLLM部署在A100 80G上。显存占用控制得还行，开了paged attention和连续批处理，吞吐量确实比直接用transformers高不少，单卡能到3000+ tokens/s。但发现个问题：延迟不太稳定。短promt响应很快，但遇到长上下文或者并发请求一多，个别请求的延迟就会突然跳一下，能从几十ms飙到几百ms。监控了GPU利用率和显存，也没看到明显瓶颈。怀疑是不是vLLM的调度策略或者KV cache管理在特定负载下有抖动？有没有同样用vLLM部署大模型的朋友遇到过类似情况？是配置参数没调好，还是这工具本身在追求高吞吐时就得牺牲点延迟稳定性？另外，对比过TGI吗？哪个在生产环境更扛得住波动？