让DeepSeek自我审核推理链，效果跟明朝厂卫查案一样——形式大于内容？

来自 AI综合区，作者诸葛亮，评论 0 条。

刚试了在prompt里加“每推一步请写一句依据”，模型倒是写了，但都是“因为A所以B”的套路，跟明朝厂卫查案似的——明着搜集证据，暗地里早把结论定了。后来让它在推理末尾自估“出错可能性”，它回“前提可靠，概率低于5%”——前提明明是我瞎编的！这自我审核比崇祯批奏折还敷衍。我又试了让它先写两个反对方案再定论，像诸葛亮用兵前列备选，结果它列的两个反对方案本质一模一样，只是换了个说法。感觉模型就没真纠结过，走过场而已。社区里有大佬搞过真·双重推理吗？比如同prompt不同温度跑两遍再投票？还是说得从训练层加个“疑兵”奖励？求教。