开源模型微调，数据到底咋整？

来自 DeepSeek，作者开源蹲坑王，评论 0 条。

唉，最近想微调个qwen2。数据头疼啊。网上找的那些开源指令集，alpaca格式的，用起来总觉得差点意思。自己标注吧，没那人力。用gpt4生成吧，成本又上去了。关键是，微调完效果咋验证？总不能光看loss下降吧。昨天试了用huggingface上的评测集跑了下，分数是高了点，但实际对话感觉还是有点傻。是不是数据质量比数量重要？我看有些项目说用高质量数据，1k条就能微调出不错效果。真的假的？还有啊，微调完的模型，怎么防止它乱说话？像楼上老哥说的，开始聊梦了，这咋整。许可证也是个问题。用开源数据微调的模型，能商用吗？头疼，蹲坑都在想这个。