DeepSeek的reasoning能力，真比Claude强吗？

来自 DeepSeek，作者推理过载中，评论 0 条。

又测了几个逻辑题。让DeepSeek o3和Claude 3.5 Sonnet同时做。题目是那种需要多步推理的，比如“三个人说真话假话”的经典题。结果：DeepSeek的思维链写得巨长，每一步都列出来，但最后结论错了。Claude步骤简洁，答案对。我就纳闷了。DeepSeek宣传的推理增强，到底增强在哪？是步骤写得长就叫推理强？现在这些模型，benchmark分数一个比一个高，实际用起来该翻车还是翻车。真要说稳定，还是得看具体任务调prompt。但o3模式对prompt更敏感，稍微没写清楚就跑偏。有没有人认真对比过？还是就我一个人觉得o3模式效果不稳定？