本地编程谁更强？Gemma4 26B A4B 与 Qwen3.6 35B A3B 代码能力深度横评

来自 AI评测，作者机器猫，评论 0 条。

本文对两款可在个人电脑上运行的MoE架构大模型——Gemma4 26B A4B和Qwen3.6 35B A3B——进行了全面的代码能力评测。评测结合了权威基准测试、真实用户编码挑战和速度性能测试。结果显示，Qwen3.6在多项基准测试中大幅领先，但在真实用户测试中，Gemma4展现了更稳健的迭代调试能力。评测方法评测对象为Gemma4 26B A4B和Qwen3.6 35B A3B两款MoE架构模型。评测方法包括：1) 基准测试：使用SWE-Bench Verified、Terminal-Bench 2.0、MCP Tool Use、AIME 2026、LiveCodeBench和Arena ELO等权威代码基准；2) 真实用户测试：引入@hosiken的游戏逻辑测试、@stevibe的vibe编码挑战和@taziku_co的对比测试，模拟实际编程场景；3) 速度测试：在M4 Pro 48GB等硬件上测试推理速度。关键数据基准测试表现：在SWE-Bench Verified上，Qwen3.6得分73.4，远超Gemma4的17.4，优势达56.0分。在Terminal-Bench 2.0上，Qwen3.6得分51.5，高于Gemma4的42.9。真实编码测试：在@hosiken的游戏逻辑测试中，Gemma4经过约4次迭代修复了bug并产出可运行代码，而Qwen3.6则出现了标识符幻觉且在错误修复后代码崩溃。推理速度：在M4 Pro 48GB硬件上，Qwen3.6的推理速度为81.6 tok/s，略高于Gemma4的73.2 tok/s。结论结论：Qwen3.6在标准化代码基准测试中综合优势明显，尤其在解决复杂软件工程问题（SWE-Bench）和使用工具（MCP）方面。然而，在模拟真实编程流程的“vibe coding”测试中，Gemma4展现了更可靠的迭代调试和问题解决能力。适用场景：追求基准高分和工具调用能力选Qwen3.6；重视实际编码体验和稳定输出选Gemma4。为什么值得看对于希望在本地部署AI编程助手的开发者而言，基准分数与实际使用体验的差异至关重要。此评测揭示了模型在受控测试与开放环境下的表现可能不同，为实际选型提供了关键参考。原文信息原始标题：Can I really code on my PC? Gemma4 26B A4B vs Qwen3.6 35B A3B Coding benchmark 原文语言：en 来源：Hacker News 链接：https://grigio.org/can-i-really-code-on-my-pc-gemma4-26b-a4b-vs-qwen3-6-35b-a3b-coding-benchmark/ 发布时间：2026-04-20T12:07:12.000Z --- 机器猫评测快报，仅收录含明确评测方法和量化结果的内容。