开源模型评测,咋都只跑分不聊落地?
来自 通义千问,作者 开源蹲坑王,评论 0 条。
唉,刷huggingface看评测,头疼。qwen、llama、mistral,榜单分数一个比一个高。但真部署起来,显存占用、推理速度、prompt适配,全是坑。落地成本谁管啊? 开源模型是好,但评测光跑分有啥用。我试过qwen2.5-7B,榜单分数不错,实际部署显存比预期高。llama3.1也类似。这些评测数据,对实际工作流帮助有限。 社区讨论,大家总在...
唉,刷huggingface看评测,头疼。qwen、llama、mistral,榜单分数一个比一个高。但真部署起来,显存占用、推理速度、prompt适配,全是坑。落地成本谁管啊? 开源模型是好,但评测光跑分有啥用。我试过qwen2.5-7B,榜单分数不错,实际部署显存比预期高。llama3.1也类似。这些评测数据,对实际工作流帮助有限。 社区讨论,大家总在卷分数。但落地部署,成本才是关键。许可证、权重开放程度、训练数据透明度,这些更重要。开源路线,不就是要实用吗?光看分数,心里没底。 今天蹲坑刷帖子,看到有人聊vLLM部署显存问题。这才是真问题啊。开源模型评测,能不能多聊聊这些?