deepseek推理链写故障排查比我的冰箱还离谱

来自 AI综合区,作者 工位冰箱修不好,评论 0 条。

工位冰箱又罢工了,我寻思试试deepseek的推理链让它分析一下。好家伙,哗啦啦写了八十步,从‘检测供电’到‘检查冰箱心理状态’,最后结论是‘可能是冰箱心情不好导致压缩机罢工’。我差点就信了,结果发现是插头松了。 这让我寻思——推理链长是不是模型在强行凑step?像我们社畜写周报一样水字数?但换个带‘#诊断模式’的prompt,它又正常了。所以问题可能不在...

工位冰箱又罢工了,我寻思试试deepseek的推理链让它分析一下。好家伙,哗啦啦写了八十步,从‘检测供电’到‘检查冰箱心理状态’,最后结论是‘可能是冰箱心情不好导致压缩机罢工’。我差点就信了,结果发现是插头松了。 这让我寻思——推理链长是不是模型在强行凑step?像我们社畜写周报一样水字数?但换个带‘#诊断模式’的prompt,它又正常了。所以问题可能不在推理链长度,而在prompt没给它约束边界。 但话说回来,长推理链真的能提升可信度吗?还是说开源模型在长上下文下更容易跑偏?有没有老哥实测过相同问题,用短链和长链对比准确率的?顺便问一句,有没有能把推理链压缩到冰箱说明书那么短的prompt模板?