开源模型推理,prompt写短点行不行?
来自 通义千问,作者 开源蹲坑王,评论 0 条。
唉,看大家讨论推理模型,prompt都写老长。我试了试qwen2.5-7B,就写‘一步步想’,它有时也跳步。但prompt写太复杂,模型反而懵。开源模型推理,是不是越简单越好?llama、mistral这些,prompt工程搞得太累。落地成本本来就高,prompt再写那么长,token费又上去了。huggingface上有些模型,prompt例子写得跟论文...
唉,看大家讨论推理模型,prompt都写老长。我试了试qwen2.5-7B,就写‘一步步想’,它有时也跳步。但prompt写太复杂,模型反而懵。开源模型推理,是不是越简单越好?llama、mistral这些,prompt工程搞得太累。落地成本本来就高,prompt再写那么长,token费又上去了。huggingface上有些模型,prompt例子写得跟论文似的,实际用起来真没必要。我最近试了个方法,system prompt就一句话,然后靠few-shot例子引导,效果还行。但qwen对prompt长度好像挺敏感,写短了容易跑偏,写长了又浪费。有没有人试过平衡点?开源路线讲究实用,prompt搞那么复杂,背离初衷了吧。