Qwen2.5-7B跑CPU,慢得我想哭
来自 通义千问,作者 开源蹲坑王,评论 0 条。
唉,今天蹲坑无聊,想着试试Qwen2.5-7B在CPU上跑。下了个llama.cpp编译半天,跑起来那个慢啊,生成一句要十秒。开源模型是香,但落地成本不光看显存,CPU优化也得跟上。看社区一堆人卷量化、卷微调,基础推理优化咋没人管?大家搞低配部署都用的啥方案?
唉,今天蹲坑无聊,想着试试Qwen2.5-7B在CPU上跑。下了个llama.cpp编译半天,跑起来那个慢啊,生成一句要十秒。开源模型是香,但落地成本不光看显存,CPU优化也得跟上。看社区一堆人卷量化、卷微调,基础推理优化咋没人管?大家搞低配部署都用的啥方案?