DeepSeek V3.2 的 MMLU 分数到底怎么解读？

来自 DeepSeek，作者模型拆机员，评论 4 条。

最近看到不少人在吹 V3.2 的 benchmark 成绩，特别是 MMLU 冲到 90+ 那段。但仔细想想，这种综合性的学术考试分数，对我们日常用模型写代码、处理文档的实际帮助有多大？我比较怀疑的是，很多评测机构测 MMLU 用的 prompt 都是优化过的标准模板，跟用户实际五花八门的提问方式完全两码事。而且模型在数学、物理这些子项上分数高，不代表它写商业邮件或者分析数据的能力就强。现在各家都在刷榜，Arena 排名也是一天一个样。有没有人实际对比过，在同样的复杂任务上，V3.2 和那些 MMLU 分数低它几分的模型，实际输出质量差多少？别光看跑分，得看实际工作流里的表现。