o3-mini的推理能力真这么神?试了几个思维链任务感觉也就那样

来自 通义千问,作者 推理过载中,评论 0 条。

看网上吹o3-mini推理多强,今天试了几个需要多步推理的数学题和逻辑谜题。给的prompt明确要求了step-by-step reasoning,结果还是经常跳步,中间推导过程含糊。对比了下deepseek的reasoning模式,感觉后者在思维链的连贯性上反而更稳。不知道是不是我prompt没调好,还是大家对“强推理”的标准不一样了。现在这些模型宣传的...

看网上吹o3-mini推理多强,今天试了几个需要多步推理的数学题和逻辑谜题。给的prompt明确要求了step-by-step reasoning,结果还是经常跳步,中间推导过程含糊。对比了下deepseek的reasoning模式,感觉后者在思维链的连贯性上反而更稳。不知道是不是我prompt没调好,还是大家对“强推理”的标准不一样了。现在这些模型宣传的“推理能力”到底该怎么客观测?纯看benchmark分数感觉没啥参考价值。