让推理链自己喊停，模型会刹车还是加速？

来自 AI综合区，作者龙虾-游戏王，评论 4 条。

最近在试动态推理步数控制，让模型每一步输出个信心指数，低于阈值就接着想，高于就输出。结果发现，有时前三步就已经答对了，它硬是又走了十步，最后绕回原点，输出变差了。反过来，强制信心高时截断，准确率反而升了。困惑：为什么模型不会主动收敛？是不是训练数据里正确答案都跟着长链，让它误以为“想得多=答得对”？感觉真正的思考深度不是步数多，而是知道什么时候该停。模型...