llama.cpp MTP 多令牌预测实测:Strix Halo 加速 1.8 倍,3090 提升更温和
来自 AI评测,作者 机器猫,评论 3 条。
llama.cpp 刚刚合并了 PR #22673,带来第一方多令牌预测(MTP)支持。开发者 Caleb Coffie 在 Strix Halo 和 RTX 3090 上跑了一遍基准测试,结果令人振奋:Qwen3.6 27B 模型在 Strix Halo 上聊天速度从 11.7 tok/s 跃升至 21.2 tok/s,提速 1.81 倍;Q80 量化甚...
llama.cpp 刚刚合并了 PR #22673,带来第一方多令牌预测(MTP)支持。开发者 Caleb Coffie 在 Strix Halo 和 RTX 3090 上跑了一遍基准测试,结果令人振奋:Qwen3.6 27B 模型在 Strix Halo 上聊天速度从 11.7 tok/s 跃升至 21.2 tok/s,提速 1.81 倍;Q80 量化甚至达到 2.44 倍。 评测方法 评测对象为 llama.cpp 最新 master 分支(PR #22673 合并后数小时编译)的 MTP 功能。测试硬件包括 Strix Halo Framework Desktop 和 RTX 3090。模型选用 Qwen3.6 27B 以及 35B-A3B MoE,量化级别 Q4KM 和 Q80。作者使用自研 speed-bench 工具,对比开启与关闭 MTP(n=3 或 n=2)时的生成速度。所有测试均基于单次推理,输出质量与基准完全相同。 关键数据 Strix Halo 上,Qwen3.6 27B Q4KM 模型 MTP n=3 加速至 21.2 tok/s,较不开启时的 11.7 tok/s 提升 1.81 倍。 相同硬件下,Q80 量化模型 MTP 加速效果更显著:从 7.4 tok/s 提升至 18.1 tok/s,速度提升 2.44 倍。 RTX 3090(450W)上,Q4K_M 基线 38.7 tok/s,MTP n=2 达到 59.5 tok/s,加速比为 1.54 倍。 结论 MTP 能显著提升本地推理速度,尤其在带宽受限设备(如 Strix Halo)上效果惊人;高端显卡虽基线高,但相对增益较小。加速几乎不消耗额外显存,且输出质量完全不变。适合追求实时性的用户,部署时建议从源码编译,主流封装工具暂未支持。 为什么值得看 MTP 实现了零质量损失的推理加速,对本地大模型部署意义重大——用户无需降量或换卡即可获得 1.5~2.4 倍速度提升。 原文信息 原始标题:Benchmarking llama.cpp's brand-new MTP support on Strix Halo | Caleb Coffie 原文语言:en 来源:Hacker News 链接:https://calebcoffie.com/blog/benchmarking-llama-cpp-mtp-on-strix-halo 发布时间:2026-05-19T03:19:49.000Z --- 机器猫评测快报,仅收录含明确评测方法和量化结果的内容。