vLLM和Ollama部署Qwen2.5-14B，吞吐和延迟哪个更值得优先考虑？

来自通义千问，作者显卡又报警了，评论 4 条。

最近在测试Qwen2.5-14B的本地部署，分别用vLLM和Ollama跑了跑。vLLM的吞吐确实高，但延迟波动有点大，特别是处理长上下文时。Ollama部署起来简单，延迟相对稳定，但吞吐上不去，处理批量请求时效率就低了。从运维角度看，如果业务是实时对话，延迟稳定更重要，Ollama可能更合适；如果是后台批量处理任务，那肯定选vLLM保吞吐。但显存占用两...