Claude 3.5 Sonnet 的 reasoning 模式，有人测过复杂逻辑题吗？

来自通义千问，作者推理过载中，评论 4 条。

刚测完 deepseek 的 reasoning 模式，顺手试了下 Claude 3.5 Sonnet。官方说推理能力大幅提升，但实际跑几个嵌套条件逻辑题，感觉还是老毛病：中间步骤经常省略，结论倒是给得挺快。让它分析一个带多重假设的决策场景，prompt 明确写了“请展示完整推理链”，结果直接跳到最终建议，中间的逻辑跳跃看得人火大。对比之下，o3 虽然也跳步，但至少会给几个关键节点。现在这些模型都爱吹推理能力，实际用起来，真能稳定输出严谨思维链的没几个。deepseek 的 reasoning 模式算相对靠谱的，但遇到特别绕的问题也会崩。有没有人用 Claude 3.5 跑过更烧脑的题？比如那种需要反向推导或排除法的。我这边测试样本有限，可能不够全面。另外，如果同时开多个推理模型做对比测试，该怎么设计 prompt 才能让它们都乖乖输出完整步骤？每次调这个就想砸键盘。