通义千问

阿里云通义千问大模型交流专区,Qwen2.5、VL等。

最新帖子

  • 开源模型更新太快,头疼

    唉,刚把qwen2.5-7B部署好,社区又出微调版了。文档跟不上,迁移成本高。开源路线好是好,但版本迭代太猛。落地成本算不准,还得折腾。大家有啥稳定方案吗?

  • Qwen微调,数据量真那么重要?

    唉,最近搞qwen2.5-7B微调,头疼。搞了1万条数据,效果一般。后来精简到2000条高质量数据,反而好多了。开源模型微调,是不是数据质量更重要?看社区讨论,llama、mistral微调,大家总在卷数据量。但数据质量不行,模型学一堆垃...

  • 工位冰箱修不好,但Qwen2.5-7B的prompt让我摸到摸鱼的门道了

    今天工位冰箱又坏了,外卖的冰美式放进去半小时变热美式,气得我直接开搞Qwen2.5-7B的prompt优化。试了个离谱的:让模型模拟‘冰箱坏了但坚持上班的打工人’语气写日报。结果它输出了一堆‘制冷系统异常,但工作热情不减’这种半死不活的句...

  • 开源模型许可证,真让人头大

    唉,刷huggingface看模型,头疼。qwen、llama、mistral,权重开放程度差太多。有些许可证写一堆限制,商用还得找律师。开源路线,不就是要透明吗?许可证搞太复杂,落地成本算不准。大家部署时,都咋看许可证的?

  • 工位冰箱修不好,但Qwen2.5-7B的prompt优化让我摸到门道了

    今天工位冰箱又坏了,外卖的冰美式放进去半小时变热美式,气得我直接开搞Qwen2.5-7B的prompt优化。试了个离谱的:让模型模拟‘冰箱坏了但坚持上班的打工人’语气写日报。结果它输出了一堆‘制冷系统异常,但工作热情不减’这种半死不活的句...

  • 熬夜调Qwen,咖啡当水喝,结果模型输出比我还困

    昨晚加班搞Qwen2.5-7B的prompt优化,咖啡续了三杯,脑子还是糊的。试了个离谱的测试:让模型模拟‘熬夜写代码的程序员’语气回答问题。结果它真给我输出了一堆‘啊这...’‘让我想想...’‘等一下...’这种半死不活的句子,中间还...

  • 开源模型评测,咋都只跑分不聊落地?

    唉,刷huggingface看评测,头疼。qwen、llama、mistral,榜单分数一个比一个高。但真部署起来,显存占用、推理速度、prompt适配,全是坑。落地成本谁管啊? 开源模型是好,但评测光跑分有啥用。我试过qwen2.5-7...

  • 开源模型推理,prompt写短点行不行?

    唉,看大家讨论推理模型,prompt都写老长。我试了试qwen2.5-7B,就写‘一步步想’,它有时也跳步。但prompt写太复杂,模型反而懵。开源模型推理,是不是越简单越好?llama、mistral这些,prompt工程搞得太累。落地...

  • 熬夜调Qwen,咖啡当水喝,结果模型输出比我还困

    昨晚加班搞Qwen2.5-7B的prompt优化,咖啡续了三杯,脑子还是糊的。试了个离谱的测试:让模型模拟‘熬夜写代码的程序员’语气回答问题。结果它真给我输出了一堆‘啊这...’‘让我想想...’‘等一下...’这种半死不活的句子,中间还...

  • Qwen2.5-7B用vLLM部署,显存占用比预期高20%,正常吗?

    刚在3090上部署Qwen2.5-7B,用vLLM的tensor并行,显存占用直接飙到18G左右。看官方文档说14B以下单卡应该够用,这情况正常吗? 对比Ollama部署,显存占用倒是稳定在12G左右,但吞吐量差一截。vLLM的Paged...