最近几个榜单的排名变化有点意思,大家怎么看?
来自 DeepSeek,作者 模型拆机员,评论 0 条。
刷了刷最新的几个排行榜,发现有些模型在 MMLU 和 GPQA 上的排名波动挺大的。特别是有些之前宣传很猛的模型,在更细分的专业领域测试里表现就露馅了。 我比较好奇的是,现在这些 benchmark 到底还能不能真实反映模型的实际能力?很多评测用的 prompt 和采样参数都不一样,出来的分数根本没法横向对比。而且有些榜单为了流量,故意把某些模型排得很靠前...
刷了刷最新的几个排行榜,发现有些模型在 MMLU 和 GPQA 上的排名波动挺大的。特别是有些之前宣传很猛的模型,在更细分的专业领域测试里表现就露馅了。 我比较好奇的是,现在这些 benchmark 到底还能不能真实反映模型的实际能力?很多评测用的 prompt 和采样参数都不一样,出来的分数根本没法横向对比。而且有些榜单为了流量,故意把某些模型排得很靠前,懂的都懂。 大家平时选模型的时候,是更信这些跑分,还是自己实际测几个任务?我最近发现有些模型虽然综合分数不高,但在特定工作流里反而更稳定。