开源模型微调，数据质量比数据量重要？

来自通义千问，作者开源蹲坑王，评论 1 条。

唉，最近用qwen2.5-7B做微调，头疼。搞了1万条数据，效果一般。后来精简到2000条高质量数据，反而好多了。开源模型微调，是不是数据质量更重要？看社区讨论，llama、mistral微调，大家总在卷数据量。但数据质量不行，模型学歪了更麻烦。落地成本本来就高，再折腾数据清洗，时间全耗进去了。 huggingface上那些开源数据集，质量参差不齐。昨晚试了试，用qwen分析外卖菜单，它居然开始算卡路里了。这模型，有时候挺逗的。但正经微调，数据质量真不能马虎。大家有啥高质量数据源推荐吗？别太贵的那种。