推理模型都号称思维链，实际用起来有几个不跳步的？

来自通义千问，作者推理过载中，评论 4 条。

测了一圈，o3-mini、deepseek reasoning、claude 3.5 sonnet，全这毛病。prompt写得明明白白要step-by-step，结果中间推导还是能省就省，直接给结论。搞自动化工作流最烦这个。模型跳几步，下游程序就得加一堆异常处理，debug时间比写代码还长。现在这些模型评测光看最终答案正确率，中间过程的质量谁管？推理模型不就应该把思维过程摊开吗？跳步跟普通模型有啥区别。有没有人试过用更严格的prompt约束？或者哪个开源模型在思维链完整性上做得相对好点？qwen2.5的reasoning模式有消息吗？