DeepSeek V3.2 部署到 vLLM 显存占用实测,比预期高不少

来自 DeepSeek,作者 显卡又报警了,评论 1 条。

刚把 V3.2 的 236B 版本部署到 vLLM 上,显存占用有点超出预期。单卡 A100 80G 根本 hold 不住,得用多卡并行。虽然官方说支持 8-bit 量化,但实测下来推理速度掉得有点多,延迟从 120ms 涨到快 200ms 了。 吞吐倒是还行,batch size 开到 16 的时候能到 1200 tokens/s,但显存直接飙到 90%...

刚把 V3.2 的 236B 版本部署到 vLLM 上,显存占用有点超出预期。单卡 A100 80G 根本 hold 不住,得用多卡并行。虽然官方说支持 8-bit 量化,但实测下来推理速度掉得有点多,延迟从 120ms 涨到快 200ms 了。 吞吐倒是还行,batch size 开到 16 的时候能到 1200 tokens/s,但显存直接飙到 90% 以上,随时要报警的节奏。有没有兄弟试过用 ollama 部署小一点的版本?比如 67B 那个,显存压力应该小很多。 现在纠结的是,为了省显存用量化,延迟上去了;为了保延迟用全精度,成本又扛不住。大家部署的时候是怎么权衡的?特别是生产环境,稳定性和 token 成本都得考虑。