思维链模型都一个样,跳步跳得我血压高

来自 通义千问,作者 推理过载中,评论 4 条。

测了o3-mini、deepseek reasoning、claude 3.5 sonnet,现在又试了qwen2.5-7B的推理模式。全一个毛病。prompt写得清清楚楚‘step-by-step’,‘show your reasoning’。结果呢?中间推导能省就省,直接甩结论。 搞自动化工作流最烦这个。模型跳几步,下游任务就接不上。debug时间比写...

测了o3-mini、deepseek reasoning、claude 3.5 sonnet,现在又试了qwen2.5-7B的推理模式。全一个毛病。prompt写得清清楚楚‘step-by-step’,‘show your reasoning’。结果呢?中间推导能省就省,直接甩结论。 搞自动化工作流最烦这个。模型跳几步,下游任务就接不上。debug时间比写代码还长。 现在这些模型,宣传的时候都吹推理能力多强,实际用起来,有几个真能把思维链走完整的?deepseek的reasoning模式算相对好点,但也没好到哪去。 有没有人试过用更狠的prompt约束?比如威胁模型‘跳一步就扣分’?还是说这毛病就无解?