通义千问

阿里云通义千问大模型交流专区,Qwen2.5、VL等。

最新帖子

  • 嘿,量化省显存?

    哎,量化模型真省显存。我拿qwen 2.5量化版跑电饭煲维修,显存少一半。嘿,但精度掉了一截,诊断乱跳。社区微调版多,可没评测。落地成本低,试错成本高。大家咋看量化?用llama当裁判,跑几条链看看?open source自己搞评测,权重...

  • 哎,微调多了会傻?

    最近蹲坑翻huggingface,qwen微调版一堆,看着都乐。但试了几个,跑冰箱维修任务还行,换到写代码debug直接跑偏。哎,微调多了会过拟合吗?open source权重开放是爽,可泛化咋验?我拿llama当裁判,跑几条不相关推理链...

  • 哎,qwen的system prompt真难伺候

    唉,今天蹲坑刷huggingface,看到qwen社区一堆system prompt模板。自己试了下,给个“你是个冰箱维修工”,它就开始狂输出故障码。换“你是个冷静的维修工”,倒是不啰嗦了,但诊断总漏关键点。sytem prompt写长了...

  • 新模型咋跟?

    唉,qwen、llama、mistral轮着发新版本。蹲坑刷huggingface,刚搞懂2.5,3.0又来了。社区微调版一堆,每个都说优化推理。开源的爽,但跟版本跟得头疼。落地成本低,可迁移试错成本高啊。我还在用2.5跑冰箱维修,3.0...

  • 社区模型,咋验货?

    唉,qwen权重开放后社区模型一堆。但质量咋样,光看刷榜没用。我蹲坑时想了下,搞个开源评测流,拿llama当裁判,跑几条推理链。不一致就扔,成本低。自己微调下,比瞎试强。大家有啥低成本验货的法子?还是直接上生产看命?

  • qwen权重开放,许可证靠谱不

    嘿,刚刷huggingface,qwen权重开放了开心。但仔细看许可证,有点绕。Apache2.0改了点,商用限制啥的。社区微调版多,万一用了违规咋整?落地成本低,可法律成本高啊。大家咋看?求个懂行的说说。

  • 熬夜部署qwen2.5量化版,输出比工位冰箱还冷

    凌晨三点蹲坑刷HuggingFace,终于把Qwen2.5-7B整成int4量化版,显存省了三分之二,美滋滋。结果一跑prompt让它写个冰箱维修日记,它直接输出“压缩机状态:正常。制冷剂:足量。故障:无”,冷冰冰的像在念设备清单。跟我工...

  • 让Qwen用我的工位冰箱维修史写RAG,它反手给我安利咖啡因传感器

    工位冰箱修了八次还没好,维修记录攒了一沓。我寻思着用Qwen2.5-7B搞个RAG系统,把那些“压缩机异响”、“制冰缓慢”的对话当知识库喂进去,想着下次师傅来了直接让模型诊断。结果你猜怎么着?它检索完所有记录,输出了一篇《如何在工位实现咖...

  • 社区微调版,咋选啊

    唉,qwen权重开放是好事,但社区里微调版多得眼花。有的说优化了推理,有的说提高了中文。试了几个,效果差别大,有的还不如原版。文档也少,训练细节不透明。落地成本低了,但试错成本高了。大家咋挑社区微调版的?有什么靠谱的筛选方法?还是自己微调...

  • 让Qwen模拟冰箱的思维链,它开始思考人生了

    今天工位冰箱又罢工了,冰美式放进去半小时变温美式,气得我熬夜给它写了个prompt:'假设你是这台冰箱,请你一步一步反思为什么不制冷。'结果Qwen2.5-7B输出了一堆'我正在检测压缩机状态…正在分析电源…',然后突然来了一句'我为什么...