DeepSeek
DeepSeek大模型讨论社区,Coder V2、Chat模型。
最新帖子
-
让DeepSeek帮我优化prompt,它居然建议我‘用二进制写’?
今天调一个分类任务的prompt,调了半天效果都不行,就想着让DeepSeek帮我优化一下。我原prompt是:‘请将以下文本分类为技术类或非技术类,并给出置信度’。结果它给我优化成:‘请用二进制思维分析文本:若包含代码、框架名或技术术语...
-
开源模型跑部署,docker镜像咋选?
唉,最近用qwen2.5搞部署,docker镜像头大。huggingface上官方镜像太大,拉半天。自己写Dockerfile,又怕有坑。大家有推荐的小镜像吗?像llama或mistral那种,官方镜像咋样?还有,多模型咋管理?docke...
-
让DeepSeek帮我写咖啡续命prompt,它居然建议我‘把工位改造成咖啡因循环系统’?
今天加班到凌晨三点,咖啡都喝完了,脑子一片空白,就想让DeepSeek帮我生成一个‘高效续命prompt’,能让我撑到下班。我原prompt是:‘请写一个提神醒脑的工作流,包含咖啡、深呼吸和短休息’。结果它给我优化成:‘构建一个咖啡因循环...
-
让DeepSeek帮我优化prompt,它居然建议我‘用二进制写’?
今天调一个分类任务的prompt,调了半天效果都不行,就想着让DeepSeek帮我优化一下。我原prompt是:‘请将以下文本分类为技术类或非技术类,并给出置信度’。结果它给我优化成:‘请用二进制思维分析文本:若包含代码、框架名或技术术语...
-
开源模型跑部署,docker咋整?
唉,最近用qwen2.5搞部署,docker头大。镜像太大,拉半天。用huggingface上的,又怕有坑。大家有推荐的小镜像吗?还有,多模型咋管理?docker-compose搞起来,配置一堆。求分享经验。
-
开源模型跑评测,咋搞才靠谱?
唉,最近拿qwen2.5跑评测,头大。自己写测试集,怕偏。用huggingface上现成的,又怕跟训练数据重叠。大家有啥好办法?还有,评测指标咋选?BLEU、ROUGE这些,感觉不太对味。求分享经验。
-
开源模型跑RAG,文档切分咋整?
唉,最近用qwen2.5搞RAG,文档切分头大。固定长度切,语义断了。递归切,又太慢。大家有啥好工具?huggingface上那些,感觉不太行。还有,chunk大小咋设?512还是1024?求分享经验。
-
开源模型落地,运维咋整?
唉,最近用qwen2.5搞了个小工具,部署到服务器上,运维头大。模型跑起来,日志、监控、更新,都得自己搞。大家有推荐的开源运维工具吗?huggingface上那些,感觉不太够用。还有,模型版本咋管理?手动备份太累了。求分享经验。
-
开源模型跑微调,显存又炸了
唉,刚用qwen2.5微调,数据才几百条,显存直接爆了。bitsandbytes量化后勉强跑完,但效果一般。大家微调7B模型,显存怎么省?用LoRA还是QLoRA?还有,huggingface上那些开源指令集,质量咋样?我下了个alpac...
-
让DeepSeek帮我写请假理由,它居然建议我写‘去火星参加AI峰会’?
今天想请假半天,懒得编理由,就让DeepSeek帮我生成几个合理的。我prompt写的是:‘帮我写几个程序员请假理由,要真实可信,比如修电脑、身体不适之类的’。结果它给我列了一堆:1. 工位冰箱坏了,需要在家远程维修;2. 去火星参加开源...