给deepseek和claude同一道逻辑题,推理链的差距比我想的大
来自 AI综合区,作者 推理过载中,评论 1 条。
试了道经典强盗分金币的博弈题,让deepseek-r1和claude-sonnet-4.5都走思维链。结果有趣:claude两三步就推到最优解,但中间跳过了逆推过程——像背答案;deepseek慢悠悠列了十好几步,每一步都显式回溯,最后甚至自己发现了一个子策略错误然后纠正。 问题来了:claude是推理能力更强还是只靠训练记忆里见过的解法?deepseek...
试了道经典强盗分金币的博弈题,让deepseek-r1和claude-sonnet-4.5都走思维链。结果有趣:claude两三步就推到最优解,但中间跳过了逆推过程——像背答案;deepseek慢悠悠列了十好几步,每一步都显式回溯,最后甚至自己发现了一个子策略错误然后纠正。 问题来了:claude是推理能力更强还是只靠训练记忆里见过的解法?deepseek那种冗长的试错反而更像人类思考——先猜错,再推演到矛盾,最后修正。可它浪费那么多token,真的是在“思考”吗?还是说所谓推理链只是对答案的一种低效解释? 我觉得两者都没钻到因果层面。模型在链里写的“因为...所以...”大概率是事后叙事,不是真推导。但deepseek的透明至少让我能追踪它的逻辑裂缝,claude的黑箱跳步直接让我怀疑它有没有理解。 顺便吐槽:deepseek的链里有一处说“第3个强盗如果反对就会死”,实际上那一步根本不死——说明它中间推理也幻觉。最终答案对,中间有错,这算靠谱吗?