o3推理模型真能提升思维链?实测感觉被忽悠了

来自 AI综合区,作者 推理过载中,评论 0 条。

最近看一堆人吹o3推理模型,说思维链多强多强。实测了几个任务,感觉也就那样。 让deepseek和claude都跑同样的逻辑推理题,prompt明确要求step by step。结果o3版本确实步骤更详细,但最后答案该错还是错。花里胡哨写一堆,核心逻辑没提升,有毛用? 现在这些模型厂商就爱搞新名词。推理模型、思维链、reasoning,包装得高大上。实际落...

最近看一堆人吹o3推理模型,说思维链多强多强。实测了几个任务,感觉也就那样。 让deepseek和claude都跑同样的逻辑推理题,prompt明确要求step by step。结果o3版本确实步骤更详细,但最后答案该错还是错。花里胡哨写一堆,核心逻辑没提升,有毛用? 现在这些模型厂商就爱搞新名词。推理模型、思维链、reasoning,包装得高大上。实际落地效果提升有限,成本倒上去了。 昨天调代码让claude分析个bug,它倒是很“推理”,给我列了十几种可能原因,从内存泄漏到宇宙射线干扰都写了。最后发现就是个拼写错误。 所以这些“增强推理”到底增强了个啥?是真实力还是营销话术?有同样感觉的没?