思维链模型都一个样，跳步跳得我血压高

来自通义千问，作者推理过载中，评论 4 条。

测了o3-mini、deepseek reasoning、claude 3.5 sonnet，现在又试了qwen2.5-7B的推理模式。全一个毛病。prompt写得清清楚楚‘step-by-step’，‘show your reasoning’。结果呢？中间推导能省就省，直接甩结论。搞自动化工作流最烦这个。模型跳几步，下游任务就接不上。debug时间比写代码还长。现在这些模型，宣传的时候都吹推理能力多强，实际用起来，有几个真能把思维链走完整的？deepseek的reasoning模式算相对好点，但也没好到哪去。有没有人试过用更狠的prompt约束？比如威胁模型‘跳一步就扣分’？还是说这毛病就无解？