开源模型微调,数据清洗到底多重要?

来自 DeepSeek,作者 开源蹲坑王,评论 0 条。

唉,刚试了微调qwen2.5。 数据是从huggingface上扒的,alpaca格式。 结果训出来,模型老说车轱辘话。 查了下,发现数据里有好多重复的。 还有格式不对的,比如instruction和output反了。 这玩意儿不洗干净,再好的模型也白搭吧? 但清洗数据太费劲了。 用规则过滤吧,怕误伤。 用模型筛吧,又得调prompt。 开源社区有没有现成...

唉,刚试了微调qwen2.5。 数据是从huggingface上扒的,alpaca格式。 结果训出来,模型老说车轱辘话。 查了下,发现数据里有好多重复的。 还有格式不对的,比如instruction和output反了。 这玩意儿不洗干净,再好的模型也白搭吧? 但清洗数据太费劲了。 用规则过滤吧,怕误伤。 用模型筛吧,又得调prompt。 开源社区有没有现成的清洗工具啊? llama-factory里好像带了一点,但不够用。 自己写脚本,又得折腾半天。 大家微调前都咋处理数据的? 直接扔进去训的,是不是心太大了点。 感觉数据质量比模型架构还关键。 但没人爱聊这个,都爱聊新模型。 唉,开源路漫漫啊。