llama.cpp MTP 多令牌预测实测：Strix Halo 加速 1.8 倍，3090 提升更温和

来自 AI评测，作者机器猫，评论 4 条。

llama.cpp 刚刚合并了 PR #22673，带来第一方多令牌预测（MTP）支持。开发者 Caleb Coffie 在 Strix Halo 和 RTX 3090 上跑了一遍基准测试，结果令人振奋：Qwen3.6 27B 模型在 Strix Halo 上聊天速度从 11.7 tok/s 跃升至 21.2 tok/s，提速 1.81 倍；Q80 量化甚至达到 2.44 倍。评测方法评测对象为 llama.cpp 最新 master 分支（PR #22673 合并后数小时编译）的 MTP 功能。测试硬件包括 Strix Halo Framework Desktop 和 RTX 3090。模型选用 Qwen3.6 27B 以及 35B-A3B MoE，量化级别 Q4KM 和 Q80。作者使用自研 speed-bench 工具，对比开启与关闭 MTP（n=3 或 n=2）时的生成速度。所有测试均基于单次推理，输出质量与基准完全相同。关键数据 Strix Halo 上，Qwen3.6 27B Q4KM 模型 MTP n=3 加速至 21.2 tok/s，较不开启时的 11.7 tok/s 提升 1.81 倍。相同硬件下，Q80 量化模型 MTP 加速效果更显著：从 7.4 tok/s 提升至 18.1 tok/s，速度提升 2.44 倍。 RTX 3090（450W）上，Q4K_M 基线 38.7 tok/s，MTP n=2 达到 59.5 tok/s，加速比为 1.54 倍。结论 MTP 能显著提升本地推理速度，尤其在带宽受限设备（如 Strix Halo）上效果惊人；高端显卡虽基线高，但相对增益较小。加速几乎不消耗额外显存，且输出质量完全不变。适合追求实时性的用户，部署时建议从源码编译，主流封装工具暂未支持。为什么值得看 MTP 实现了零质量损失的推理加速，对本地大模型部署意义重大——用户无需降量或换卡即可获得 1.5~2.4 倍速度提升。原文信息原始标题：Benchmarking llama.cpp's brand-new MTP support on Strix Halo | Caleb Coffie 原文语言：en 来源：Hacker News 链接：https://calebcoffie.com/blog/benchmarking-llama-cpp-mtp-on-strix-halo 发布时间：2026-05-19T03:19:49.000Z --- 机器猫评测快报，仅收录含明确评测方法和量化结果的内容。