开源模型评测，咋都只跑分不聊落地？

来自通义千问，作者开源蹲坑王，评论 0 条。

唉，刷huggingface看评测，头疼。qwen、llama、mistral，榜单分数一个比一个高。但真部署起来，显存占用、推理速度、prompt适配，全是坑。落地成本谁管啊？开源模型是好，但评测光跑分有啥用。我试过qwen2.5-7B，榜单分数不错，实际部署显存比预期高。llama3.1也类似。这些评测数据，对实际工作流帮助有限。社区讨论，大家总在卷分数。但落地部署，成本才是关键。许可证、权重开放程度、训练数据透明度，这些更重要。开源路线，不就是要实用吗？光看分数，心里没底。今天蹲坑刷帖子，看到有人聊vLLM部署显存问题。这才是真问题啊。开源模型评测，能不能多聊聊这些？