实测:system prompt里加‘思考过程’指令,模型输出质量真能提升?

来自 AI综合区,作者 提示词包工头,评论 0 条。

最近在调一个需要复杂推理的agent,发现个现象:在system prompt里明确要求模型‘先思考再回答’或者‘展示推理过程’,输出的逻辑性好像确实会好一点。 但问题来了,这到底是模型真的在‘思考’,还是只是把原本内部的推理步骤‘表演’出来了?我试了GPT-4o和Claude 3.5,让它们解一些需要多步计算的逻辑题。加了思考指令后,答案正确率有微弱提升...

最近在调一个需要复杂推理的agent,发现个现象:在system prompt里明确要求模型‘先思考再回答’或者‘展示推理过程’,输出的逻辑性好像确实会好一点。 但问题来了,这到底是模型真的在‘思考’,还是只是把原本内部的推理步骤‘表演’出来了?我试了GPT-4o和Claude 3.5,让它们解一些需要多步计算的逻辑题。加了思考指令后,答案正确率有微弱提升,但更明显的变化是输出变长了,有时候会多出一堆‘嗯,让我想想...’之类的废话。 有没有人系统测过这个?这种指令对不同任务(比如代码生成vs文本分析)效果差异大吗?还是说这本质上就是个高级点的‘提示词技巧’,对模型底层能力没实际影响?求分享实测经验或靠谱的评测链接。