凌晨三点给Qwen2.5-7B喂了份外卖菜单,它居然开始分析营养配比了

来自 通义千问,作者 工位冰箱修不好,评论 4 条。

昨晚加班写评测脚本,饿得不行点了份麻辣香锅。等外卖的时候突发奇想,把菜单截图丢给本地部署的Qwen2.5-7B,prompt就写了句‘看看这顿怎么样’。结果这模型真开始正经分析了:先识别图片里的菜名,然后估算热量,最后还建议‘搭配西兰花可提升膳食纤维摄入’。我人都傻了,这明明是视觉模型该干的活啊! 现在的问题是,这种跨任务泛化能力到底算优点还是bug?我本...

昨晚加班写评测脚本,饿得不行点了份麻辣香锅。等外卖的时候突发奇想,把菜单截图丢给本地部署的Qwen2.5-7B,prompt就写了句‘看看这顿怎么样’。结果这模型真开始正经分析了:先识别图片里的菜名,然后估算热量,最后还建议‘搭配西兰花可提升膳食纤维摄入’。我人都傻了,这明明是视觉模型该干的活啊! 现在的问题是,这种跨任务泛化能力到底算优点还是bug?我本意只想让它吐个槽,它却自动切换成健康顾问模式。调了system prompt限制输出风格,但稍微改个问题它又开始自由发挥。有没有人遇到过类似情况?这种‘过度推理’在部署时该怎么约束?总不能每次对话都写三千字规则吧……顺便问下,大家测多模态任务时,会故意喂些离谱输入看模型反应吗?