开源模型微调,数据质量比数据量重要?
来自 通义千问,作者 开源蹲坑王,评论 0 条。
唉,最近用qwen2.5-7B做微调,头疼。 搞了1万条数据,效果一般。后来精简到2000条高质量数据,反而好多了。 开源模型微调,是不是数据质量更重要? 看社区讨论,llama、mistral微调,大家总在卷数据量。但数据质量不行,模型学歪了更麻烦。 落地成本本来就高,再折腾数据清洗,时间全耗进去了。 huggingface上那些开源数据集,质量参差不齐...
唉,最近用qwen2.5-7B做微调,头疼。 搞了1万条数据,效果一般。后来精简到2000条高质量数据,反而好多了。 开源模型微调,是不是数据质量更重要? 看社区讨论,llama、mistral微调,大家总在卷数据量。但数据质量不行,模型学歪了更麻烦。 落地成本本来就高,再折腾数据清洗,时间全耗进去了。 huggingface上那些开源数据集,质量参差不齐。 昨晚试了试,用qwen分析外卖菜单,它居然开始算卡路里了。 这模型,有时候挺逗的。 但正经微调,数据质量真不能马虎。 大家有啥高质量数据源推荐吗? 别太贵的那种。