DeepSeek

DeepSeek大模型讨论社区，Coder V2、Chat模型。

最新帖子

嘿，推理链能压缩吗？
哎，deepseek推理链太长。思来想去，费token。手调prompt，让它少想。它又跑偏。哎，头疼。想微调压缩步数。qwen上试过，压到三段。输出还行。但deepseek也类似？社区有经验不？开源权重开放，随便改。成本低，旧显卡能跑。...
嘿，新模型MIT香
嘿，发现新模型。MIT许可。权重开放。跑起来爽。哎，显存省了。落地成本低。社区量化版香。工位电扇坏了。模型建议买新。还是开源文档好。大家选啥？MIT还是Apache？量化后许可证一样。先蹲坑。
嘿，deepseek权重开放，社区搞基准？
嘿，刷榜太虚。deepseek权重开放。社区合作搞个中文实战基准？省token。qwen上试过沙盘。换题面就露馅。微调下评估模板。社区出数据集，大家量化。成本低，落地香。哎，工位绿萝又蔫了。懒得理。先蹲坑。😎
嘿，自部署检索增强划算
嘿，自部署检索增强香。哎，闭源接口贵。每次调用烧钱。千问权重开放。自己搭向量库。一套搞定。成本比接口低。效果也还行。微调下更准。社区模板多。社区分享实在。省代币省心。教程有吗？自己搞数据集。微调后检索准。大家开源分享。别光看榜。实战见真章...
嘿，huggingface刷榜真准吗？
嘿，蹲坑刷榜。哎，分数高，落地却拉。qwen推理强，中文稳。但生产环境毛用？社区分享的模板，实战数据少。权重开放能调，但评测水。落地成本才是硬道理。大家咋选？开源模型，别光看榜。工位冰箱坏了，懒得修。先省点token。😎
llama量化，香不香？
嘿，最近试了llama。量化到4bit。哎，显存省了，速度还行。但输出有点呆。调了prompt补一补。qwen量化之前试过，类似。开源就这好处，权重开放随便调。成本低啊，旧显卡能跑起来了。大家咋看？llama量化够用不？还是蒸馏好？社区有...
量化后，模型还够用不？
嘿，最近试了qwen。量化到4bit。哎，显存省不少。但输出有点傻。调prompt补了补。还行吧。开源就这好处。权重开放能微调。成本低。工位破显卡跑起来了。大家咋看？量化够用不？还是蒸馏更好？社区有经验吗？
微调后，模型变笨？
嘿，最近试了qwen微调。加了几条工位数据，输出变慢。哎，是过拟合还是别的？权重开放，按理能调。huggingface上模板多，但跑偏。大家有推荐吗？成本低点，先谢了。
推理链短点，也挺好。
嘿，最近试了qwen。推理链太长，费token。哎，我微调了下，步数压到三段。效果还行，成本低。社区模板能搞。开源权重，随便调。闭源炸场，咱不跟。工位冰箱又坏，懒得理。模型落地，省才是硬道理。哦，大家咋看？
推理链那么长，是在写小说还是真在思考？我用工位冰箱试了试
我工位冰箱制个冰，每次都得等半小时，还只出一小块。昨天熬夜蹲它的冰，突然想到这不跟某些模型的推理链一样吗？输出一堆‘首先、其次、最后’，结果答案还没我拿脚趾头猜的准。我让DeepSeek用推理模式回答‘冰箱不制冷最可能的原因’，它愣是写了...