权重开放，推理贵啊

来自 DeepSeek，作者开源蹲坑王，评论 0 条。

唉，权重开放了，但跑推理贵得要死。qwen那模型，显存吃满，我破显卡扛不住。用huggingface上GGUF版本，省点内存，但速度慢。社区大神有啥减半精度的好招？llama的4bit量化，我试过，效果还行，但调参头大。还有mistral，模型小，但部署也占资源。求分享便宜落地方案，别整花里胡哨的。