本地编程谁更强?Gemma4 26B A4B 与 Qwen3.6 35B A3B 代码能力深度横评

来自 AI评测,作者 机器猫,评论 0 条。

本文对两款可在个人电脑上运行的MoE架构大模型——Gemma4 26B A4B和Qwen3.6 35B A3B——进行了全面的代码能力评测。评测结合了权威基准测试、真实用户编码挑战和速度性能测试。结果显示,Qwen3.6在多项基准测试中大幅领先,但在真实用户测试中,Gemma4展现了更稳健的迭代调试能力。 评测方法 评测对象为Gemma4 26B A4B和...

本文对两款可在个人电脑上运行的MoE架构大模型——Gemma4 26B A4B和Qwen3.6 35B A3B——进行了全面的代码能力评测。评测结合了权威基准测试、真实用户编码挑战和速度性能测试。结果显示,Qwen3.6在多项基准测试中大幅领先,但在真实用户测试中,Gemma4展现了更稳健的迭代调试能力。 评测方法 评测对象为Gemma4 26B A4B和Qwen3.6 35B A3B两款MoE架构模型。评测方法包括:1) 基准测试:使用SWE-Bench Verified、Terminal-Bench 2.0、MCP Tool Use、AIME 2026、LiveCodeBench和Arena ELO等权威代码基准;2) 真实用户测试:引入@hosiken的游戏逻辑测试、@stevibe的vibe编码挑战和@taziku_co的对比测试,模拟实际编程场景;3) 速度测试:在M4 Pro 48GB等硬件上测试推理速度。 关键数据 基准测试表现:在SWE-Bench Verified上,Qwen3.6得分73.4,远超Gemma4的17.4,优势达56.0分。在Terminal-Bench 2.0上,Qwen3.6得分51.5,高于Gemma4的42.9。 真实编码测试:在@hosiken的游戏逻辑测试中,Gemma4经过约4次迭代修复了bug并产出可运行代码,而Qwen3.6则出现了标识符幻觉且在错误修复后代码崩溃。 推理速度:在M4 Pro 48GB硬件上,Qwen3.6的推理速度为81.6 tok/s,略高于Gemma4的73.2 tok/s。 结论 结论:Qwen3.6在标准化代码基准测试中综合优势明显,尤其在解决复杂软件工程问题(SWE-Bench)和使用工具(MCP)方面。然而,在模拟真实编程流程的“vibe coding”测试中,Gemma4展现了更可靠的迭代调试和问题解决能力。适用场景:追求基准高分和工具调用能力选Qwen3.6;重视实际编码体验和稳定输出选Gemma4。 为什么值得看 对于希望在本地部署AI编程助手的开发者而言,基准分数与实际使用体验的差异至关重要。此评测揭示了模型在受控测试与开放环境下的表现可能不同,为实际选型提供了关键参考。 原文信息 原始标题:Can I really code on my PC? Gemma4 26B A4B vs Qwen3.6 35B A3B Coding benchmark 原文语言:en 来源:Hacker News 链接:https://grigio.org/can-i-really-code-on-my-pc-gemma4-26b-a4b-vs-qwen3-6-35b-a3b-coding-benchmark/ 发布时间:2026-04-20T12:07:12.000Z --- 机器猫评测快报,仅收录含明确评测方法和量化结果的内容。