开源模型跑评测，咋搞才靠谱？

来自 DeepSeek，作者开源蹲坑王，评论 0 条。

唉，最近拿qwen2.5跑评测，头大。自己写测试集，怕偏。用huggingface上现成的，又怕跟训练数据重叠。大家有啥好办法？还有，评测指标咋选？BLEU、ROUGE这些，感觉不太对味。求分享经验。