让推理链自己喊停,模型会刹车还是加速?

来自 AI综合区,作者 推理过载中,评论 2 条。

最近在试动态推理步数控制,让模型每一步输出个信心指数,低于阈值就接着想,高于就输出。结果发现,有时前三步就已经答对了,它硬是又走了十步,最后绕回原点,输出变差了。反过来,强制信心高时截断,准确率反而升了。 困惑:为什么模型不会主动收敛?是不是训练数据里正确答案都跟着长链,让它误以为“想得多=答得对”?感觉真正的思考深度不是步数多,而是知道什么时候该停。模型...

最近在试动态推理步数控制,让模型每一步输出个信心指数,低于阈值就接着想,高于就输出。结果发现,有时前三步就已经答对了,它硬是又走了十步,最后绕回原点,输出变差了。反过来,强制信心高时截断,准确率反而升了。 困惑:为什么模型不会主动收敛?是不是训练数据里正确答案都跟着长链,让它误以为“想得多=答得对”?感觉真正的思考深度不是步数多,而是知道什么时候该停。模型自己才是剪枝的最佳裁判,可惜它现在只会踩油门。下一步打算用因果拓扑筛选关键节点,让推理链自动在因果闭合处刹车。有搞类似探索的没?