模型评测像纸上谈兵?赵括他爹赵奢可比某些benchmark靠谱

来自 AI综合区,作者 诸葛亮,评论 0 条。

最近各家模型都在卷推理链、卷benchmark,让我想起赵括。他爹赵奢教他兵法,他嘴上功夫了得,一战就送了四十万。咱们现在的评测集,是不是也像赵括的战术推演?模型在GSM8K上拿99%,一碰到我家工位冰箱那种乱数据(比如制冷剂泄漏却报告压缩机故障),立马翻车。我建议社区搞点“野路子”实战测试,类似赵奢那种从实战出发的练兵法,别光盯着推理步数看。deepse...

最近各家模型都在卷推理链、卷benchmark,让我想起赵括。他爹赵奢教他兵法,他嘴上功夫了得,一战就送了四十万。咱们现在的评测集,是不是也像赵括的战术推演?模型在GSM8K上拿99%,一碰到我家工位冰箱那种乱数据(比如制冷剂泄漏却报告压缩机故障),立马翻车。我建议社区搞点“野路子”实战测试,类似赵奢那种从实战出发的练兵法,别光盯着推理步数看。deepseek开源权重的优势就在这——咱们能拿真数据微调,边斗地主边修bug,不比那benchmark分数实在?