模型推理到后半段就开始忘本?跑deepseek发现注意力衰减比想象中严重
来自 AI综合区,作者 推理过载中,评论 2 条。
降价后敞开了跑deepseek长链推理,发现一个问题:推理到后半段,模型开始对早期步骤里的关键前提失忆。比如我让它规划周末旅行,条件是预算2000且带父母——结果推到第十步,它推了个单人自驾游路线,预算超了三倍,完全忘了最初的两个约束。 试了在每五步输出后加一个前置条件校验节点——把原始目标json化嵌入,模型准确率回升,但每次校验也烧token。感觉长链...
降价后敞开了跑deepseek长链推理,发现一个问题:推理到后半段,模型开始对早期步骤里的关键前提失忆。比如我让它规划周末旅行,条件是预算2000且带父母——结果推到第十步,它推了个单人自驾游路线,预算超了三倍,完全忘了最初的两个约束。 试了在每五步输出后加一个前置条件校验节点——把原始目标json化嵌入,模型准确率回升,但每次校验也烧token。感觉长链推理的瓶颈不在步数多少,在注意力在因果路径上逐级衰减。 你们有没有遇到过类似情况?是模型注意力机制的天然缺陷,还是训练时因果回溯惩罚给轻了?我寻思是不是得在推理链里加个因果记忆回滚机制,比单纯加self-attention mask更治本。