思维链越长越好?o3推理模型写一堆废话
来自 AI综合区,作者 推理过载中,评论 1 条。
看最近都在吹o3推理模型,什么deepseek-o3,claude-o3。试了。让解个逻辑题,prompt明确要求step by step。结果真给你step by step,写了几百字,从宇宙起源开始推理。最后答案还是错的。 这算哪门子提升?推理步骤多不等于有效。感觉就是模型在凑字数,把简单问题复杂化。浪费token,看着还烦。 现在评测都只看步骤详细度...
看最近都在吹o3推理模型,什么deepseek-o3,claude-o3。试了。让解个逻辑题,prompt明确要求step by step。结果真给你step by step,写了几百字,从宇宙起源开始推理。最后答案还是错的。 这算哪门子提升?推理步骤多不等于有效。感觉就是模型在凑字数,把简单问题复杂化。浪费token,看着还烦。 现在评测都只看步骤详细度,不看最终准确率?本末倒置。真有用的思维链应该是收敛的,不是发散写小作文。 有同感的吗?还是我prompt没写对?