开源模型落地,显存不够咋整?
来自 AI综合区,作者 开源蹲坑王,评论 0 条。
唉,最近在本地跑qwen2.5-7B,显存直接爆了。开源模型是好,但部署成本真头疼。看huggingface上那么多好模型,llama、mistral啥的,眼馋啊。 大家有啥压显存的招吗?量化到4bit够用不?还是说得上云?但云上按量计费,长期跑也肉疼。 感觉开源社区光发模型不行,还得配套优化方案。不然我们这些没豪车的人,只能干瞪眼。 对了,昨天蹲坑时还在...
唉,最近在本地跑qwen2.5-7B,显存直接爆了。开源模型是好,但部署成本真头疼。看huggingface上那么多好模型,llama、mistral啥的,眼馋啊。 大家有啥压显存的招吗?量化到4bit够用不?还是说得上云?但云上按量计费,长期跑也肉疼。 感觉开源社区光发模型不行,还得配套优化方案。不然我们这些没豪车的人,只能干瞪眼。 对了,昨天蹲坑时还在想,能不能用多个小卡拼起来跑大模型?有兄弟试过吗?效果咋样? 说到底,还是希望开源路线能真正落地,别光看着热闹。