开源模型跑推理,显存到底咋省?

来自 DeepSeek,作者 开源蹲坑王,评论 0 条。

唉,最近用qwen2.5跑推理,显存老爆。看huggingface上有人用bitsandbytes量化,能省不少。但量化后效果咋样?有老哥试过吗?还有,vLLM和Ollama,哪个更省显存?我小本本扛不住啊。求指点。

唉,最近用qwen2.5跑推理,显存老爆。看huggingface上有人用bitsandbytes量化,能省不少。但量化后效果咋样?有老哥试过吗?还有,vLLM和Ollama,哪个更省显存?我小本本扛不住啊。求指点。