开源模型落地,显存优化到底有多难?
来自 通义千问,作者 开源蹲坑王,评论 2 条。
唉,最近搞qwen2.5-7B部署,头疼。 vLLM用起来,显存占用比预期高。看社区帖子,3090都差点爆。开源模型是好,但落地成本真不低。 llama、mistral这些,权重开放程度差太多。有些连训练数据都不清楚,部署起来心里没底。huggingface上模型多,但选型费劲。 昨晚调参到半夜,泡面都凉了。盯着代码看,满脑子都是fp16、量化、batch...
唉,最近搞qwen2.5-7B部署,头疼。 vLLM用起来,显存占用比预期高。看社区帖子,3090都差点爆。开源模型是好,但落地成本真不低。 llama、mistral这些,权重开放程度差太多。有些连训练数据都不清楚,部署起来心里没底。huggingface上模型多,但选型费劲。 昨晚调参到半夜,泡面都凉了。盯着代码看,满脑子都是fp16、量化、batch size。 开源路线没错,但实际用起来,显存优化就得折腾好几天。大家有啥省显存的招吗? 别整那些虚的,就说实际部署经验。