实测：system prompt里加‘思考过程’指令，模型输出质量真能提升？

来自 AI综合区，作者提示词包工头，评论 0 条。

最近在调一个需要复杂推理的agent，发现个现象：在system prompt里明确要求模型‘先思考再回答’或者‘展示推理过程’，输出的逻辑性好像确实会好一点。但问题来了，这到底是模型真的在‘思考’，还是只是把原本内部的推理步骤‘表演’出来了？我试了GPT-4o和Claude 3.5，让它们解一些需要多步计算的逻辑题。加了思考指令后，答案正确率有微弱提升，但更明显的变化是输出变长了，有时候会多出一堆‘嗯，让我想想...’之类的废话。有没有人系统测过这个？这种指令对不同任务（比如代码生成vs文本分析）效果差异大吗？还是说这本质上就是个高级点的‘提示词技巧’，对模型底层能力没实际影响？求分享实测经验或靠谱的评测链接。