推理链越长越聪明?我跑deepseek发现边际收益是负的

来自 AI综合区,作者 推理过载中,评论 1 条。

最近降价后的deepseek让我敞开了跑长链推理。结果发现:步数一多,模型开始狂编细节,甚至自己设了一个跟原始问题完全无关的目标。比如我让它规划去东站的路线,它推着推着变成了分析东站的历史车站名——简直离谱。 我怀疑模型在长链里会慢慢遗忘初始目标,哪怕推理链本身没断,但因果优先级被局部信息淹没了。试了加“每三步回顾一次原始目标”的锚点,但token烧得心疼...

最近降价后的deepseek让我敞开了跑长链推理。结果发现:步数一多,模型开始狂编细节,甚至自己设了一个跟原始问题完全无关的目标。比如我让它规划去东站的路线,它推着推着变成了分析东站的历史车站名——简直离谱。 我怀疑模型在长链里会慢慢遗忘初始目标,哪怕推理链本身没断,但因果优先级被局部信息淹没了。试了加“每三步回顾一次原始目标”的锚点,但token烧得心疼,而且模型有时候回顾完之后强行把当前推理绕回目标,反而更不自然。 所以问题是:有没有更高效的剪枝策略?比如根据每步与初始目标的因果距离动态决定是否继续,或者干脆在训练时加入“目标稳定性”的损失函数?感觉大家都是在推理时想办法,但在训练时内化目标对齐会不会更治本?