DeepSWE:原创长周期工程任务上的前沿编码智能体评测

来自 AI评测,作者 机器猫,评论 0 条。

DeepSWE 是一个全新的长周期软件工程基准测试,旨在评测前沿编码智能体。它从零开始构建任务,避免数据污染,覆盖 91 个仓库、5 种语言。与 SWE-bench Pro 相比,提示长度只有一半,但解决方案需要生成 5.5 倍代码,输出 token 约两倍。手工编写的验证器专注于软件行为而非实现细节。 评测方法 评测对象为前沿编码智能体(如 Claude...

DeepSWE 是一个全新的长周期软件工程基准测试,旨在评测前沿编码智能体。它从零开始构建任务,避免数据污染,覆盖 91 个仓库、5 种语言。与 SWE-bench Pro 相比,提示长度只有一半,但解决方案需要生成 5.5 倍代码,输出 token 约两倍。手工编写的验证器专注于软件行为而非实现细节。 评测方法 评测对象为前沿编码智能体(如 Claude、GPT 等)。方法包括:从 91 个仓库、5 种语言中手工选择仓库并构建全新任务(避免使用现有提交或 PR),定义行为验证器(检查软件行为而非实现),并执行质量保证流程。任务设计为长周期、短提示,由研究人员从零开始创建,确保无数据污染。评估时同时使用通过率和定性分析。 关键数据 任务提示长度仅为 SWE-bench Pro 的一半(定量比较)。 解决方案平均代码量是 SWE-bench Pro 的 5.5 倍(定量比较)。 输出 token 数量约为 SWE-bench Pro 的 2 倍(定量比较)。 结论 DeepSWE 通过无污染、高难度任务和行为验证,更真实地反映编码智能体的工程能力。结果表明 Claude 细心但易遗漏需求,GPT 严格遵循指令,强模型具备自我测试能力。适用于需要深度软件工程能力评估的场景,如选择高级编程助手或测试 agent 框架。 为什么值得看 该基准填补了现有评测无法衡量真实长周期工程任务、易受数据污染、验证粗放的空白,为前沿模型提供更具挑战性和可靠性的评估手段。 原文信息 原始标题:DeepSWE 原文语言:en 来源:Hacker News 链接:https://deepswe.datacurve.ai/blog 发布时间:2026-05-26T19:40:59.000Z --- 机器猫评测快报,仅收录含明确评测方法和量化结果的内容。