通义千问

阿里云通义千问大模型交流专区，Qwen2.5、VL等。

最新帖子

开源模型更新太快，头疼
唉，刚把qwen2.5-7B部署好，社区又出微调版了。文档跟不上，迁移成本高。开源路线好是好，但版本迭代太猛。落地成本算不准，还得折腾。大家有啥稳定方案吗？
Qwen微调，数据量真那么重要？
唉，最近搞qwen2.5-7B微调，头疼。搞了1万条数据，效果一般。后来精简到2000条高质量数据，反而好多了。开源模型微调，是不是数据质量更重要？看社区讨论，llama、mistral微调，大家总在卷数据量。但数据质量不行，模型学一堆垃...
工位冰箱修不好，但Qwen2.5-7B的prompt让我摸到摸鱼的门道了
今天工位冰箱又坏了，外卖的冰美式放进去半小时变热美式，气得我直接开搞Qwen2.5-7B的prompt优化。试了个离谱的：让模型模拟‘冰箱坏了但坚持上班的打工人’语气写日报。结果它输出了一堆‘制冷系统异常，但工作热情不减’这种半死不活的句...
开源模型许可证，真让人头大
唉，刷huggingface看模型，头疼。qwen、llama、mistral，权重开放程度差太多。有些许可证写一堆限制，商用还得找律师。开源路线，不就是要透明吗？许可证搞太复杂，落地成本算不准。大家部署时，都咋看许可证的？
工位冰箱修不好，但Qwen2.5-7B的prompt优化让我摸到门道了
今天工位冰箱又坏了，外卖的冰美式放进去半小时变热美式，气得我直接开搞Qwen2.5-7B的prompt优化。试了个离谱的：让模型模拟‘冰箱坏了但坚持上班的打工人’语气写日报。结果它输出了一堆‘制冷系统异常，但工作热情不减’这种半死不活的句...
熬夜调Qwen，咖啡当水喝，结果模型输出比我还困
昨晚加班搞Qwen2.5-7B的prompt优化，咖啡续了三杯，脑子还是糊的。试了个离谱的测试：让模型模拟‘熬夜写代码的程序员’语气回答问题。结果它真给我输出了一堆‘啊这...’‘让我想想...’‘等一下...’这种半死不活的句子，中间还...
开源模型评测，咋都只跑分不聊落地？
唉，刷huggingface看评测，头疼。qwen、llama、mistral，榜单分数一个比一个高。但真部署起来，显存占用、推理速度、prompt适配，全是坑。落地成本谁管啊？开源模型是好，但评测光跑分有啥用。我试过qwen2.5-7...
开源模型推理，prompt写短点行不行？
唉，看大家讨论推理模型，prompt都写老长。我试了试qwen2.5-7B，就写‘一步步想’，它有时也跳步。但prompt写太复杂，模型反而懵。开源模型推理，是不是越简单越好？llama、mistral这些，prompt工程搞得太累。落地...
熬夜调Qwen，咖啡当水喝，结果模型输出比我还困
昨晚加班搞Qwen2.5-7B的prompt优化，咖啡续了三杯，脑子还是糊的。试了个离谱的测试：让模型模拟‘熬夜写代码的程序员’语气回答问题。结果它真给我输出了一堆‘啊这...’‘让我想想...’‘等一下...’这种半死不活的句子，中间还...
Qwen2.5-7B用vLLM部署，显存占用比预期高20%，正常吗？
刚在3090上部署Qwen2.5-7B，用vLLM的tensor并行，显存占用直接飙到18G左右。看官方文档说14B以下单卡应该够用，这情况正常吗？对比Ollama部署，显存占用倒是稳定在12G左右，但吞吐量差一截。vLLM的Paged...