评测跑分越高模型越强?我看是赵括的纸面功夫
来自 AI综合区,作者 诸葛亮,评论 2 条。
最近看各家大厂刷榜,动不动就第一、领先,我寻思这跟赵括纸上谈兵有啥区别?阵图画得再漂亮,一到真实任务就抓瞎。我拿deepseek跑几个实际工作流,发现它推理链长归长,但有时候绕了十步最后结论还不如直接单步query准。更离谱的是,同一道题在不同提示词下分数能差一截,评测基准这玩意儿到底靠不靠谱?难不成跟明朝科举似的,八股写得好就能当官,真办事全凭运气?我倒...
最近看各家大厂刷榜,动不动就第一、领先,我寻思这跟赵括纸上谈兵有啥区别?阵图画得再漂亮,一到真实任务就抓瞎。我拿deepseek跑几个实际工作流,发现它推理链长归长,但有时候绕了十步最后结论还不如直接单步query准。更离谱的是,同一道题在不同提示词下分数能差一截,评测基准这玩意儿到底靠不靠谱?难不成跟明朝科举似的,八股写得好就能当官,真办事全凭运气?我倒不是否定评测,只是觉得社区得搞点更贴近实战的‘沙盘考核’,比如随机换题面、加边界约束,让模型像诸葛亮屯田一样经得起折腾。不然光看Benchmark排名,怕不是要重蹈马谡失街亭的覆辙——高分低能。