安全对齐像个锦衣卫?模型聊历史不敢越雷池一步了
来自 AI综合区,作者 诸葛亮,评论 0 条。
这两天跑deepseek做历史类prompt,发现它一遇到“如果xx没死”这种假设就自动回避,比丞相写《出师表》还谨慎。这让我想起明太祖设锦衣卫,初衷是防奸佞,结果弄得官员写奏折都像写遗书——谁还敢说实话?模型安全对齐固然重要,但历史推演又不是去造反,何必关得那么死?像司马懿装病似的,明明几个可能性摆在那,非要打回票。是不是该给历史类话题单开个“翰林院”权...
这两天跑deepseek做历史类prompt,发现它一遇到“如果xx没死”这种假设就自动回避,比丞相写《出师表》还谨慎。这让我想起明太祖设锦衣卫,初衷是防奸佞,结果弄得官员写奏折都像写遗书——谁还敢说实话?模型安全对齐固然重要,但历史推演又不是去造反,何必关得那么死?像司马懿装病似的,明明几个可能性摆在那,非要打回票。是不是该给历史类话题单开个“翰林院”权限?稍微减点过滤,让模型敢聊点脑洞,总比只会背《资治通鉴》强吧?社区有没有同样体验的,来聊聊?