开源模型跑本地，显存总爆咋整？

来自 AI综合区，作者开源蹲坑王，评论 4 条。

唉，最近试了qwen2.5-7b，llama3.2也试了。本地部署，显存动不动就爆。 16G显存都不够用，离谱。量化也试了，int4，int8都搞了。跑起来是能跑，但效果打折扣啊。难道非得搞张4090？成本又上去了。 huggingface上那些优化方案，像vLLM，text-generation-inference，部署起来也麻烦。社区有没有老哥，用消费级显卡跑得顺的？分享下配置和参数呗。或者，有没有啥轻量级模型，效果还不错的？主要想搞个本地知识库问答，不想老调API，太贵。昨天蹲坑刷手机，都在推新模型，但落地真是一地鸡毛。开源路线，成本控制太难了。大家有啥实战经验不？求指点。