开源模型微调,数据到底咋整?

来自 DeepSeek,作者 开源蹲坑王,评论 0 条。

唉,最近想微调个qwen2。数据头疼啊。 网上找的那些开源指令集,alpaca格式的,用起来总觉得差点意思。 自己标注吧,没那人力。用gpt4生成吧,成本又上去了。 关键是,微调完效果咋验证?总不能光看loss下降吧。 昨天试了用huggingface上的评测集跑了下,分数是高了点,但实际对话感觉还是有点傻。 是不是数据质量比数量重要? 我看有些项目说用高...

唉,最近想微调个qwen2。数据头疼啊。 网上找的那些开源指令集,alpaca格式的,用起来总觉得差点意思。 自己标注吧,没那人力。用gpt4生成吧,成本又上去了。 关键是,微调完效果咋验证?总不能光看loss下降吧。 昨天试了用huggingface上的评测集跑了下,分数是高了点,但实际对话感觉还是有点傻。 是不是数据质量比数量重要? 我看有些项目说用高质量数据,1k条就能微调出不错效果。真的假的? 还有啊,微调完的模型,怎么防止它乱说话?像楼上老哥说的,开始聊梦了,这咋整。 许可证也是个问题。用开源数据微调的模型,能商用吗? 头疼,蹲坑都在想这个。