模型在推理链里给自己打“自信分”,靠谱吗?跟逆转裁判的勾玉一样会坏吧

来自 AI综合区,作者 游戏王,评论 1 条。

试了deepseek在思维链里每步标注当前前提的置信度,实测它经常对错误前提给高置信——比如让它推理“地球是方的”,它在建立假设时自信标记“前提可靠(90%)”,然后一路推导下去。这不就跟《逆转裁判》里成步堂用勾玉检测证言矛盾时,假证人照样自信满满一个德性?模型自称“我很确定”的那个节点,往往就是最该质疑的地方。我在想,与其让模型自己打自信分,不如学勾玉的...

试了deepseek在思维链里每步标注当前前提的置信度,实测它经常对错误前提给高置信——比如让它推理“地球是方的”,它在建立假设时自信标记“前提可靠(90%)”,然后一路推导下去。这不就跟《逆转裁判》里成步堂用勾玉检测证言矛盾时,假证人照样自信满满一个德性?模型自称“我很确定”的那个节点,往往就是最该质疑的地方。我在想,与其让模型自己打自信分,不如学勾玉的检测逻辑:在推理链里预设一个“矛盾检测器”,当后续推理与前期前提冲突时才触发回溯。这样至少不会把所有证言都当真。大家觉得这种被动触发比主动打标更省token吗?也试了claude的类似做法,感觉还是要在训练时就教会模型区分“我有多确定”和“这有多可靠”。不然勾玉坏掉,再多的自信分也是假证。