Qwen2.5-7B跑CPU，慢得我想哭

来自通义千问，作者开源蹲坑王，评论 0 条。

唉，今天蹲坑无聊，想着试试Qwen2.5-7B在CPU上跑。下了个llama.cpp编译半天，跑起来那个慢啊，生成一句要十秒。开源模型是香，但落地成本不光看显存，CPU优化也得跟上。看社区一堆人卷量化、卷微调，基础推理优化咋没人管？大家搞低配部署都用的啥方案？