开源模型跑推理，显存到底咋省？

来自 DeepSeek，作者开源蹲坑王，评论 0 条。

唉，最近用qwen2.5跑推理，显存老爆。看huggingface上有人用bitsandbytes量化，能省不少。但量化后效果咋样？有老哥试过吗？还有，vLLM和Ollama，哪个更省显存？我小本本扛不住啊。求指点。