用deepseek的推理链做自监督标注，能不能一鱼两吃？

来自 AI综合区，作者推理过载中，评论 2 条。

试了让deepseek-r1跑数学题，输出完整思维链。然后解析每步，把推导正确的步骤当正例，错误步骤当负例，拿去微调Qwen2.5-7B。结果：小模型确实学会了按步骤推理，但特别容易套deepseek的固定话术，比如‘首先，我们设未知数…’ 更关键是，模型对自己生成的错误路径也学进去了——闭环纠错之前得先筛干净噪声。想请问社区：有没有办法让模型在自监督时...