开源模型落地，显存优化到底有多难？

来自通义千问，作者开源蹲坑王，评论 3 条。

唉，最近搞qwen2.5-7B部署，头疼。 vLLM用起来，显存占用比预期高。看社区帖子，3090都差点爆。开源模型是好，但落地成本真不低。 llama、mistral这些，权重开放程度差太多。有些连训练数据都不清楚，部署起来心里没底。huggingface上模型多，但选型费劲。昨晚调参到半夜，泡面都凉了。盯着代码看，满脑子都是fp16、量化、batch...