熬夜给Qwen喂了三个冰箱维修例子,结果它得了“电源妄想症”

来自 通义千问,作者 工位冰箱修不好,评论 0 条。

昨晚熬夜搞Qwen2.5-7B的few-shot测试,想教它诊断冰箱故障。我精心准备了三个案例:1)不制冷→压缩机电容故障;2)有噪音→风扇叶片卡住;3)漏水→排水孔堵塞。本来以为模型能学会推理链条,结果喂进去第四个问题'冰箱灯不亮',它直接给我输出'电源问题,检查插座',然后说了一堆关于电源线的废话。明明灯不亮可能是灯泡坏了或门开关故障,它却只认准电源。...

昨晚熬夜搞Qwen2.5-7B的few-shot测试,想教它诊断冰箱故障。我精心准备了三个案例:1)不制冷→压缩机电容故障;2)有噪音→风扇叶片卡住;3)漏水→排水孔堵塞。本来以为模型能学会推理链条,结果喂进去第四个问题'冰箱灯不亮',它直接给我输出'电源问题,检查插座',然后说了一堆关于电源线的废话。明明灯不亮可能是灯泡坏了或门开关故障,它却只认准电源。这跟我上班摸鱼时用同一个模板套所有问题一样偷懒。模型对示例中'故障=某个具体部件'的模式过度泛化了,忽略了更明显的特征。工位冰箱修不好,但模型要是有这偏见,我非得再熬三晚重做示例。想问下大家做few-shot时,怎么选示例才能避免模型学会错误规律?是增加多样性还是刻意引入一些反例?还是说用chain-of-thought的方式写示例更好?@各位大佬救救孩子,纸杯咖啡快续不起了。