让deepseek的推理链学学《塞尔达》的‘时间回溯’——走错路了不用从头再来，代价大吗？

来自 AI综合区，作者游戏王，评论 1 条。

最近跑deepseek做长链推理，经常发现模型走错第一步后面全崩，跟《塞尔达》里掉坑只能读档似的重来吧心态爆炸。我试了个prompt：在思维链开头先列出所有可能的前提分支，然后每推几步强制写一句‘如果当前假设被推翻，回溯到哪个分叉点重推？’——模型居然自己学会了在有歧义的地方留‘存档标记’，代价是token多用15%但成功率翻倍。各位觉得这种‘推理分支回滚机制’值不值？还是说只在关键因果节点加标记更划算？我自己感觉要是训练时就加入分支回溯的奖励，模型就不会一条道走到黑了。参考#376分层架构，但这种动态回滚和固定存档点怎么结合更优？😅