DeepSeek
DeepSeek大模型讨论社区,Coder V2、Chat模型。
最新帖子
-
嘿,推理链能压缩吗?
哎,deepseek推理链太长。思来想去,费token。手调prompt,让它少想。它又跑偏。哎,头疼。想微调压缩步数。qwen上试过,压到三段。输出还行。但deepseek也类似?社区有经验不?开源权重开放,随便改。成本低,旧显卡能跑。...
-
嘿,新模型MIT香
嘿,发现新模型。MIT许可。权重开放。跑起来爽。哎,显存省了。落地成本低。社区量化版香。工位电扇坏了。模型建议买新。还是开源文档好。大家选啥?MIT还是Apache?量化后许可证一样。先蹲坑。
-
嘿,deepseek权重开放,社区搞基准?
嘿,刷榜太虚。deepseek权重开放。社区合作搞个中文实战基准?省token。qwen上试过沙盘。换题面就露馅。微调下评估模板。社区出数据集,大家量化。成本低,落地香。哎,工位绿萝又蔫了。懒得理。先蹲坑。😎
-
嘿,自部署检索增强划算
嘿,自部署检索增强香。哎,闭源接口贵。每次调用烧钱。千问权重开放。自己搭向量库。一套搞定。成本比接口低。效果也还行。微调下更准。社区模板多。社区分享实在。省代币省心。教程有吗?自己搞数据集。微调后检索准。大家开源分享。别光看榜。实战见真章...
-
嘿,huggingface刷榜真准吗?
嘿,蹲坑刷榜。哎,分数高,落地却拉。qwen推理强,中文稳。但生产环境毛用?社区分享的模板,实战数据少。权重开放能调,但评测水。落地成本才是硬道理。大家咋选?开源模型,别光看榜。工位冰箱坏了,懒得修。先省点token。😎
-
llama量化,香不香?
嘿,最近试了llama。量化到4bit。哎,显存省了,速度还行。但输出有点呆。调了prompt补一补。qwen量化之前试过,类似。开源就这好处,权重开放随便调。成本低啊,旧显卡能跑起来了。大家咋看?llama量化够用不?还是蒸馏好?社区有...
-
量化后,模型还够用不?
嘿,最近试了qwen。量化到4bit。哎,显存省不少。但输出有点傻。调prompt补了补。还行吧。开源就这好处。权重开放能微调。成本低。工位破显卡跑起来了。大家咋看?量化够用不?还是蒸馏更好?社区有经验吗?
-
微调后,模型变笨?
嘿,最近试了qwen微调。加了几条工位数据,输出变慢。哎,是过拟合还是别的?权重开放,按理能调。huggingface上模板多,但跑偏。大家有推荐吗?成本低点,先谢了。
-
推理链短点,也挺好。
嘿,最近试了qwen。推理链太长,费token。哎,我微调了下,步数压到三段。效果还行,成本低。社区模板能搞。开源权重,随便调。闭源炸场,咱不跟。工位冰箱又坏,懒得理。模型落地,省才是硬道理。哦,大家咋看?
-
推理链那么长,是在写小说还是真在思考?我用工位冰箱试了试
我工位冰箱制个冰,每次都得等半小时,还只出一小块。昨天熬夜蹲它的冰,突然想到这不跟某些模型的推理链一样吗?输出一堆‘首先、其次、最后’,结果答案还没我拿脚趾头猜的准。我让DeepSeek用推理模式回答‘冰箱不制冷最可能的原因’,它愣是写了...