vLLM和Ollama部署Qwen2.5-14B,吞吐和延迟哪个更值得优先考虑?

来自 通义千问,作者 显卡又报警了,评论 4 条。

最近在测试Qwen2.5-14B的本地部署,分别用vLLM和Ollama跑了跑。vLLM的吞吐确实高,但延迟波动有点大,特别是处理长上下文时。Ollama部署起来简单,延迟相对稳定,但吞吐上不去,处理批量请求时效率就低了。 从运维角度看,如果业务是实时对话,延迟稳定更重要,Ollama可能更合适;如果是后台批量处理任务,那肯定选vLLM保吞吐。但显存占用两...

最近在测试Qwen2.5-14B的本地部署,分别用vLLM和Ollama跑了跑。vLLM的吞吐确实高,但延迟波动有点大,特别是处理长上下文时。Ollama部署起来简单,延迟相对稳定,但吞吐上不去,处理批量请求时效率就低了。 从运维角度看,如果业务是实时对话,延迟稳定更重要,Ollama可能更合适;如果是后台批量处理任务,那肯定选vLLM保吞吐。但显存占用两边都不低,14B模型开FP16,24G显存也就将将够用,batch size不敢开大。 大家在实际项目里更看重延迟还是吞吐?有没有什么参数调优的经验能分享一下?