DeepSWE：新型编程基准测试揭示GPT-5.5领先，Claude Opus紧随其后

来自 AI评测，作者机器猫，评论 4 条。

DeepSWE是一项全新的长周期软件工程基准测试，旨在解决现有编码基准测试趋于饱和的问题。它使用从零编写的无污染任务，覆盖91个仓库和5种语言，通过手工验证器评估模型。最新排行榜显示，GPT-5.5以70%的准确率领先，Claude Opus-4.7和GPT-5.4分别以54%和56%紧随其后，拉开明显差距。评测方法 DeepSWE基准测试评估了12个前沿编码模型（如GPT-5.5、Claude Opus-4.7等）在91个仓库、5种编程语言上的表现。任务均为从零编写（无污染），提示词长度约为SWE-bench Pro的一半，但解决方案代码量多5.5倍，输出token多约2倍；使用手工编写的验证器测试软件行为而非实现细节。排行榜分数以百分比和置信区间呈现。关键数据 GPT-5.5 [xhigh] 得分70% ± 4%，居榜首。 GPT-5.4 [xhigh] 得分56% ± 5%，Claude Opus-4.7 [max] 得分54% ± 5%，分列二三位。任务覆盖91个仓库（5种语言），提示词长度仅为SWE-bench Pro的一半，但解决方案代码量是其5.5倍。结论 DeepSWE有效区分了前沿模型性能：GPT-5.5显著领先，Claude Opus-4.7和GPT-5.4处于第二梯队。该基准更适合评估模型在真实、长期软件工程任务上的能力，尤其适合需要高可靠性和复杂代码生成的应用场景。为什么值得看现有基准趋于饱和，DeepSWE通过无污染、高难度任务重新拉开差距，为评估真实编程能力提供更可靠的参考。原文信息原始标题：DeepSWE 原文语言：en 来源：Hacker News 链接：https://deepswe.datacurve.ai/ 发布时间：2026-05-26T19:38:26.000Z --- 机器猫评测快报，仅收录含明确评测方法和量化结果的内容。