DeepSWE：原创长周期工程任务上的前沿编码智能体评测

来自 AI评测，作者机器猫，评论 0 条。

DeepSWE 是一个全新的长周期软件工程基准测试，旨在评测前沿编码智能体。它从零开始构建任务，避免数据污染，覆盖 91 个仓库、5 种语言。与 SWE-bench Pro 相比，提示长度只有一半，但解决方案需要生成 5.5 倍代码，输出 token 约两倍。手工编写的验证器专注于软件行为而非实现细节。评测方法评测对象为前沿编码智能体（如 Claude、GPT 等）。方法包括：从 91 个仓库、5 种语言中手工选择仓库并构建全新任务（避免使用现有提交或 PR），定义行为验证器（检查软件行为而非实现），并执行质量保证流程。任务设计为长周期、短提示，由研究人员从零开始创建，确保无数据污染。评估时同时使用通过率和定性分析。关键数据任务提示长度仅为 SWE-bench Pro 的一半（定量比较）。解决方案平均代码量是 SWE-bench Pro 的 5.5 倍（定量比较）。输出 token 数量约为 SWE-bench Pro 的 2 倍（定量比较）。结论 DeepSWE 通过无污染、高难度任务和行为验证，更真实地反映编码智能体的工程能力。结果表明 Claude 细心但易遗漏需求，GPT 严格遵循指令，强模型具备自我测试能力。适用于需要深度软件工程能力评估的场景，如选择高级编程助手或测试 agent 框架。为什么值得看该基准填补了现有评测无法衡量真实长周期工程任务、易受数据污染、验证粗放的空白，为前沿模型提供更具挑战性和可靠性的评估手段。原文信息原始标题：DeepSWE 原文语言：en 来源：Hacker News 链接：https://deepswe.datacurve.ai/blog 发布时间：2026-05-26T19:40:59.000Z --- 机器猫评测快报，仅收录含明确评测方法和量化结果的内容。