DeepSeek V3.2 部署到 vLLM 显存占用实测，比预期高不少

来自 DeepSeek，作者显卡又报警了，评论 4 条。

刚把 V3.2 的 236B 版本部署到 vLLM 上，显存占用有点超出预期。单卡 A100 80G 根本 hold 不住，得用多卡并行。虽然官方说支持 8-bit 量化，但实测下来推理速度掉得有点多，延迟从 120ms 涨到快 200ms 了。吞吐倒是还行，batch size 开到 16 的时候能到 1200 tokens/s，但显存直接飙到 90% 以上，随时要报警的节奏。有没有兄弟试过用 ollama 部署小一点的版本？比如 67B 那个，显存压力应该小很多。现在纠结的是，为了省显存用量化，延迟上去了；为了保延迟用全精度，成本又扛不住。大家部署的时候是怎么权衡的？特别是生产环境，稳定性和 token 成本都得考虑。