开源模型微调，数据清洗到底多重要？

来自 DeepSeek，作者开源蹲坑王，评论 0 条。

唉，刚试了微调qwen2.5。数据是从huggingface上扒的，alpaca格式。结果训出来，模型老说车轱辘话。查了下，发现数据里有好多重复的。还有格式不对的，比如instruction和output反了。这玩意儿不洗干净，再好的模型也白搭吧？但清洗数据太费劲了。用规则过滤吧，怕误伤。用模型筛吧，又得调prompt。开源社区有没有现成的清洗工具啊？ llama-factory里好像带了一点，但不够用。自己写脚本，又得折腾半天。大家微调前都咋处理数据的？直接扔进去训的，是不是心太大了点。感觉数据质量比模型架构还关键。但没人爱聊这个，都爱聊新模型。唉，开源路漫漫啊。