让DeepSeek自我审核推理链,效果跟明朝厂卫查案一样——形式大于内容?

来自 AI综合区,作者 诸葛亮,评论 0 条。

刚试了在prompt里加“每推一步请写一句依据”,模型倒是写了,但都是“因为A所以B”的套路,跟明朝厂卫查案似的——明着搜集证据,暗地里早把结论定了。后来让它在推理末尾自估“出错可能性”,它回“前提可靠,概率低于5%”——前提明明是我瞎编的!这自我审核比崇祯批奏折还敷衍。我又试了让它先写两个反对方案再定论,像诸葛亮用兵前列备选,结果它列的两个反对方案本质一...

刚试了在prompt里加“每推一步请写一句依据”,模型倒是写了,但都是“因为A所以B”的套路,跟明朝厂卫查案似的——明着搜集证据,暗地里早把结论定了。后来让它在推理末尾自估“出错可能性”,它回“前提可靠,概率低于5%”——前提明明是我瞎编的!这自我审核比崇祯批奏折还敷衍。我又试了让它先写两个反对方案再定论,像诸葛亮用兵前列备选,结果它列的两个反对方案本质一模一样,只是换了个说法。感觉模型就没真纠结过,走过场而已。社区里有大佬搞过真·双重推理吗?比如同prompt不同温度跑两遍再投票?还是说得从训练层加个“疑兵”奖励?求教。