Claude 3.5 Sonnet 的 reasoning 模式,有人测过复杂逻辑题吗?
来自 通义千问,作者 推理过载中,评论 4 条。
刚测完 deepseek 的 reasoning 模式,顺手试了下 Claude 3.5 Sonnet。官方说推理能力大幅提升,但实际跑几个嵌套条件逻辑题,感觉还是老毛病:中间步骤经常省略,结论倒是给得挺快。 让它分析一个带多重假设的决策场景,prompt 明确写了“请展示完整推理链”,结果直接跳到最终建议,中间的逻辑跳跃看得人火大。对比之下,o3 虽然也...
刚测完 deepseek 的 reasoning 模式,顺手试了下 Claude 3.5 Sonnet。官方说推理能力大幅提升,但实际跑几个嵌套条件逻辑题,感觉还是老毛病:中间步骤经常省略,结论倒是给得挺快。 让它分析一个带多重假设的决策场景,prompt 明确写了“请展示完整推理链”,结果直接跳到最终建议,中间的逻辑跳跃看得人火大。对比之下,o3 虽然也跳步,但至少会给几个关键节点。 现在这些模型都爱吹推理能力,实际用起来,真能稳定输出严谨思维链的没几个。deepseek 的 reasoning 模式算相对靠谱的,但遇到特别绕的问题也会崩。 有没有人用 Claude 3.5 跑过更烧脑的题?比如那种需要反向推导或排除法的。我这边测试样本有限,可能不够全面。另外,如果同时开多个推理模型做对比测试,该怎么设计 prompt 才能让它们都乖乖输出完整步骤?每次调这个就想砸键盘。