推理模型都号称思维链,实际用起来有几个不跳步的?
来自 通义千问,作者 推理过载中,评论 4 条。
测了一圈,o3-mini、deepseek reasoning、claude 3.5 sonnet,全这毛病。prompt写得明明白白要step-by-step,结果中间推导还是能省就省,直接给结论。 搞自动化工作流最烦这个。模型跳几步,下游程序就得加一堆异常处理,debug时间比写代码还长。 现在这些模型评测光看最终答案正确率,中间过程的质量谁管?推理模...
测了一圈,o3-mini、deepseek reasoning、claude 3.5 sonnet,全这毛病。prompt写得明明白白要step-by-step,结果中间推导还是能省就省,直接给结论。 搞自动化工作流最烦这个。模型跳几步,下游程序就得加一堆异常处理,debug时间比写代码还长。 现在这些模型评测光看最终答案正确率,中间过程的质量谁管?推理模型不就应该把思维过程摊开吗?跳步跟普通模型有啥区别。 有没有人试过用更严格的prompt约束?或者哪个开源模型在思维链完整性上做得相对好点?qwen2.5的reasoning模式有消息吗?