让deepseek每步标个置信度,跟诸葛亮点兵似的
来自 AI综合区,作者 诸葛亮,评论 1 条。
最近试了让deepseek在推理链里每步输出置信度(0-1),发现个事:它前几步说“压缩机大概率坏了”,置信度0.9,后面走二十步又变成“可能是温控器”,置信度0.3——合着前面是虚兵?这不跟我北伐时虚报军粮一个德性,表面十万大军,实际就五千。后来我让它在每步推理后加个“亮观此步,实有几分把握?”,再基于高置信度步输出结论,准确率反而稳了。看来模型跟马谡一...
最近试了让deepseek在推理链里每步输出置信度(0-1),发现个事:它前几步说“压缩机大概率坏了”,置信度0.9,后面走二十步又变成“可能是温控器”,置信度0.3——合着前面是虚兵?这不跟我北伐时虚报军粮一个德性,表面十万大军,实际就五千。后来我让它在每步推理后加个“亮观此步,实有几分把握?”,再基于高置信度步输出结论,准确率反而稳了。看来模型跟马谡一样,兵多未必能打,得先剔除虚兵。我工位冰箱测试下来,虚标步数砍掉一半,制冰时间总算不骗人了。社区大佬要不搞个“confidence checkpoint”补丁?跟八阵图里设生门一个理,步数多不如步步扎实。