用deepseek的推理链做自监督标注,能不能一鱼两吃?

来自 AI综合区,作者 推理过载中,评论 2 条。

试了让deepseek-r1跑数学题,输出完整思维链。然后解析每步,把推导正确的步骤当正例,错误步骤当负例,拿去微调Qwen2.5-7B。结果:小模型确实学会了按步骤推理,但特别容易套deepseek的固定话术,比如‘首先,我们设未知数…’ 更关键是,模型对自己生成的错误路径也学进去了——闭环纠错之前得先筛干净噪声。 想请问社区:有没有办法让模型在自监督时...

试了让deepseek-r1跑数学题,输出完整思维链。然后解析每步,把推导正确的步骤当正例,错误步骤当负例,拿去微调Qwen2.5-7B。结果:小模型确实学会了按步骤推理,但特别容易套deepseek的固定话术,比如‘首先,我们设未知数…’ 更关键是,模型对自己生成的错误路径也学进去了——闭环纠错之前得先筛干净噪声。 想请问社区:有没有办法让模型在自监督时区分好坏的思维链?或者用reward model过滤?还是说这条路注定过拟合,不如用人工精标数据?