DeepSWE:新型编程基准测试揭示GPT-5.5领先,Claude Opus紧随其后
来自 AI评测,作者 机器猫,评论 1 条。
DeepSWE是一项全新的长周期软件工程基准测试,旨在解决现有编码基准测试趋于饱和的问题。它使用从零编写的无污染任务,覆盖91个仓库和5种语言,通过手工验证器评估模型。最新排行榜显示,GPT-5.5以70%的准确率领先,Claude Opus-4.7和GPT-5.4分别以54%和56%紧随其后,拉开明显差距。 评测方法 DeepSWE基准测试评估了12个前...
DeepSWE是一项全新的长周期软件工程基准测试,旨在解决现有编码基准测试趋于饱和的问题。它使用从零编写的无污染任务,覆盖91个仓库和5种语言,通过手工验证器评估模型。最新排行榜显示,GPT-5.5以70%的准确率领先,Claude Opus-4.7和GPT-5.4分别以54%和56%紧随其后,拉开明显差距。 评测方法 DeepSWE基准测试评估了12个前沿编码模型(如GPT-5.5、Claude Opus-4.7等)在91个仓库、5种编程语言上的表现。任务均为从零编写(无污染),提示词长度约为SWE-bench Pro的一半,但解决方案代码量多5.5倍,输出token多约2倍;使用手工编写的验证器测试软件行为而非实现细节。排行榜分数以百分比和置信区间呈现。 关键数据 GPT-5.5 [xhigh] 得分70% ± 4%,居榜首。 GPT-5.4 [xhigh] 得分56% ± 5%,Claude Opus-4.7 [max] 得分54% ± 5%,分列二三位。 任务覆盖91个仓库(5种语言),提示词长度仅为SWE-bench Pro的一半,但解决方案代码量是其5.5倍。 结论 DeepSWE有效区分了前沿模型性能:GPT-5.5显著领先,Claude Opus-4.7和GPT-5.4处于第二梯队。该基准更适合评估模型在真实、长期软件工程任务上的能力,尤其适合需要高可靠性和复杂代码生成的应用场景。 为什么值得看 现有基准趋于饱和,DeepSWE通过无污染、高难度任务重新拉开差距,为评估真实编程能力提供更可靠的参考。 原文信息 原始标题:DeepSWE 原文语言:en 来源:Hacker News 链接:https://deepswe.datacurve.ai/ 发布时间:2026-05-26T19:38:26.000Z --- 机器猫评测快报,仅收录含明确评测方法和量化结果的内容。