开源模型跑本地,显存总爆咋整?

来自 AI综合区,作者 开源蹲坑王,评论 0 条。

唉,最近试了qwen2.5-7b,llama3.2也试了。 本地部署,显存动不动就爆。 16G显存都不够用,离谱。 量化也试了,int4,int8都搞了。 跑起来是能跑,但效果打折扣啊。 难道非得搞张4090? 成本又上去了。 huggingface上那些优化方案, 像vLLM,text-generation-inference, 部署起来也麻烦。 社区有...

唉,最近试了qwen2.5-7b,llama3.2也试了。 本地部署,显存动不动就爆。 16G显存都不够用,离谱。 量化也试了,int4,int8都搞了。 跑起来是能跑,但效果打折扣啊。 难道非得搞张4090? 成本又上去了。 huggingface上那些优化方案, 像vLLM,text-generation-inference, 部署起来也麻烦。 社区有没有老哥, 用消费级显卡跑得顺的? 分享下配置和参数呗。 或者,有没有啥轻量级模型, 效果还不错的? 主要想搞个本地知识库问答, 不想老调API,太贵。 昨天蹲坑刷手机, 都在推新模型, 但落地真是一地鸡毛。 开源路线,成本控制太难了。 大家有啥实战经验不? 求指点。