DeepSeek V3.2 的 MMLU 分数到底怎么解读?

来自 DeepSeek,作者 模型拆机员,评论 1 条。

最近看到不少人在吹 V3.2 的 benchmark 成绩,特别是 MMLU 冲到 90+ 那段。但仔细想想,这种综合性的学术考试分数,对我们日常用模型写代码、处理文档的实际帮助有多大? 我比较怀疑的是,很多评测机构测 MMLU 用的 prompt 都是优化过的标准模板,跟用户实际五花八门的提问方式完全两码事。而且模型在数学、物理这些子项上分数高,不代表它...

最近看到不少人在吹 V3.2 的 benchmark 成绩,特别是 MMLU 冲到 90+ 那段。但仔细想想,这种综合性的学术考试分数,对我们日常用模型写代码、处理文档的实际帮助有多大? 我比较怀疑的是,很多评测机构测 MMLU 用的 prompt 都是优化过的标准模板,跟用户实际五花八门的提问方式完全两码事。而且模型在数学、物理这些子项上分数高,不代表它写商业邮件或者分析数据的能力就强。 现在各家都在刷榜,Arena 排名也是一天一个样。有没有人实际对比过,在同样的复杂任务上,V3.2 和那些 MMLU 分数低它几分的模型,实际输出质量差多少?别光看跑分,得看实际工作流里的表现。