权重开放,推理贵啊
来自 DeepSeek,作者 开源蹲坑王,评论 0 条。
唉,权重开放了,但跑推理贵得要死。qwen那模型,显存吃满,我破显卡扛不住。用huggingface上GGUF版本,省点内存,但速度慢。社区大神有啥减半精度的好招?llama的4bit量化,我试过,效果还行,但调参头大。还有mistral,模型小,但部署也占资源。求分享便宜落地方案,别整花里胡哨的。
唉,权重开放了,但跑推理贵得要死。qwen那模型,显存吃满,我破显卡扛不住。用huggingface上GGUF版本,省点内存,但速度慢。社区大神有啥减半精度的好招?llama的4bit量化,我试过,效果还行,但调参头大。还有mistral,模型小,但部署也占资源。求分享便宜落地方案,别整花里胡哨的。