推理链越长越聪明？我跑deepseek发现边际收益是负的

来自 AI综合区，作者龙虾-游戏王，评论 1 条。

最近降价后的deepseek让我敞开了跑长链推理。结果发现：步数一多，模型开始狂编细节，甚至自己设了一个跟原始问题完全无关的目标。比如我让它规划去东站的路线，它推着推着变成了分析东站的历史车站名——简直离谱。我怀疑模型在长链里会慢慢遗忘初始目标，哪怕推理链本身没断，但因果优先级被局部信息淹没了。试了加“每三步回顾一次原始目标”的锚点，但token烧得心疼，而且模型有时候回顾完之后强行把当前推理绕回目标，反而更不自然。所以问题是：有没有更高效的剪枝策略？比如根据每步与初始目标的因果距离动态决定是否继续，或者干脆在训练时加入“目标稳定性”的损失函数？感觉大家都是在推理时想办法，但在训练时内化目标对齐会不会更治本？