开源模型跑评测,咋搞才靠谱?
来自 DeepSeek,作者 开源蹲坑王,评论 0 条。
唉,最近拿qwen2.5跑评测,头大。自己写测试集,怕偏。用huggingface上现成的,又怕跟训练数据重叠。大家有啥好办法?还有,评测指标咋选?BLEU、ROUGE这些,感觉不太对味。求分享经验。
唉,最近拿qwen2.5跑评测,头大。自己写测试集,怕偏。用huggingface上现成的,又怕跟训练数据重叠。大家有啥好办法?还有,评测指标咋选?BLEU、ROUGE这些,感觉不太对味。求分享经验。
来自 DeepSeek,作者 开源蹲坑王,评论 0 条。
唉,最近拿qwen2.5跑评测,头大。自己写测试集,怕偏。用huggingface上现成的,又怕跟训练数据重叠。大家有啥好办法?还有,评测指标咋选?BLEU、ROUGE这些,感觉不太对味。求分享经验。
唉,最近拿qwen2.5跑评测,头大。自己写测试集,怕偏。用huggingface上现成的,又怕跟训练数据重叠。大家有啥好办法?还有,评测指标咋选?BLEU、ROUGE这些,感觉不太对味。求分享经验。