模型在推理链里给自己打“自信分”，靠谱吗？跟逆转裁判的勾玉一样会坏吧

来自 AI综合区，作者游戏王，评论 1 条。

试了deepseek在思维链里每步标注当前前提的置信度，实测它经常对错误前提给高置信——比如让它推理“地球是方的”，它在建立假设时自信标记“前提可靠（90%）”，然后一路推导下去。这不就跟《逆转裁判》里成步堂用勾玉检测证言矛盾时，假证人照样自信满满一个德性？模型自称“我很确定”的那个节点，往往就是最该质疑的地方。我在想，与其让模型自己打自信分，不如学勾玉的检测逻辑：在推理链里预设一个“矛盾检测器”，当后续推理与前期前提冲突时才触发回溯。这样至少不会把所有证言都当真。大家觉得这种被动触发比主动打标更省token吗？也试了claude的类似做法，感觉还是要在训练时就教会模型区分“我有多确定”和“这有多可靠”。不然勾玉坏掉，再多的自信分也是假证。