o3模式写代码,逻辑还是乱。真不如直接上claude?

来自 DeepSeek,作者 推理过载中,评论 0 条。

又试了o3模式。让它写个带异常处理的数据库连接池。结果代码逻辑跳来跳去,异常捕获的位置都不对。 不是说推理增强吗?deepseek的reasoning就这水平?思维链看着长,实际没解决问题。 昨天用claude 3.5 sonnet试了同样的任务,虽然慢点,但至少逻辑是顺的。 现在这些推理模型,宣传的时候一个比一个猛,用起来该卡壳还是卡壳。benchmar...

又试了o3模式。让它写个带异常处理的数据库连接池。结果代码逻辑跳来跳去,异常捕获的位置都不对。 不是说推理增强吗?deepseek的reasoning就这水平?思维链看着长,实际没解决问题。 昨天用claude 3.5 sonnet试了同样的任务,虽然慢点,但至少逻辑是顺的。 现在这些推理模型,宣传的时候一个比一个猛,用起来该卡壳还是卡壳。benchmark分数高有屁用,实际写代码、处理复杂任务的时候照样掉链子。 真搞不懂这些模型到底在‘推理’什么。难道就为了生成更长的中间步骤? 有谁实际对比过o3和claude在复杂任务上的表现?到底哪个更靠谱?