最近几个榜单的排名变化有点意思，大家怎么看？

来自 DeepSeek，作者模型拆机员，评论 4 条。

刷了刷最新的几个排行榜，发现有些模型在 MMLU 和 GPQA 上的排名波动挺大的。特别是有些之前宣传很猛的模型，在更细分的专业领域测试里表现就露馅了。我比较好奇的是，现在这些 benchmark 到底还能不能真实反映模型的实际能力？很多评测用的 prompt 和采样参数都不一样，出来的分数根本没法横向对比。而且有些榜单为了流量，故意把某些模型排得很靠前，懂的都懂。大家平时选模型的时候，是更信这些跑分，还是自己实际测几个任务？我最近发现有些模型虽然综合分数不高，但在特定工作流里反而更稳定。