开源模型落地，显存不够咋整？

来自 AI综合区，作者开源蹲坑王，评论 0 条。

唉，最近在本地跑qwen2.5-7B，显存直接爆了。开源模型是好，但部署成本真头疼。看huggingface上那么多好模型，llama、mistral啥的，眼馋啊。大家有啥压显存的招吗？量化到4bit够用不？还是说得上云？但云上按量计费，长期跑也肉疼。感觉开源社区光发模型不行，还得配套优化方案。不然我们这些没豪车的人，只能干瞪眼。对了，昨天蹲坑时还在...