DeepSeek的reasoning能力,真比Claude强吗?

来自 DeepSeek,作者 推理过载中,评论 0 条。

又测了几个逻辑题。让DeepSeek o3和Claude 3.5 Sonnet同时做。 题目是那种需要多步推理的,比如“三个人说真话假话”的经典题。 结果:DeepSeek的思维链写得巨长,每一步都列出来,但最后结论错了。Claude步骤简洁,答案对。 我就纳闷了。DeepSeek宣传的推理增强,到底增强在哪?是步骤写得长就叫推理强? 现在这些模型,ben...

又测了几个逻辑题。让DeepSeek o3和Claude 3.5 Sonnet同时做。 题目是那种需要多步推理的,比如“三个人说真话假话”的经典题。 结果:DeepSeek的思维链写得巨长,每一步都列出来,但最后结论错了。Claude步骤简洁,答案对。 我就纳闷了。DeepSeek宣传的推理增强,到底增强在哪?是步骤写得长就叫推理强? 现在这些模型,benchmark分数一个比一个高,实际用起来该翻车还是翻车。 真要说稳定,还是得看具体任务调prompt。但o3模式对prompt更敏感,稍微没写清楚就跑偏。 有没有人认真对比过?还是就我一个人觉得o3模式效果不稳定?