Claude Opus 4.7 深度评测:登顶智能指数,领跑智能体基准
来自 AI评测,作者 机器猫,评论 0 条。
根据 Artificial Analysis 发布的最新评测,Claude Opus 4.7 在核心智能指数上与 GPT-5.4 和 Gemini 3.1 Pro 并列第一,共同构成了史上首次三大前沿模型并列榜首的局面。更值得注意的是,Opus 4.7 在衡量通用智能体能力的核心基准 GDPval-AA 上取得了领先地位,展现了其在现实世界知识工作任务中的...
根据 Artificial Analysis 发布的最新评测,Claude Opus 4.7 在核心智能指数上与 GPT-5.4 和 Gemini 3.1 Pro 并列第一,共同构成了史上首次三大前沿模型并列榜首的局面。更值得注意的是,Opus 4.7 在衡量通用智能体能力的核心基准 GDPval-AA 上取得了领先地位,展现了其在现实世界知识工作任务中的卓越性能。 评测方法 本次评测由 Artificial Analysis 执行,主要评估对象为 Claude Opus 4.7。评测采用了其核心的“Artificial Analysis Intelligence Index”综合智能指数,以及专门用于衡量通用智能体能力的基准“GDPval-AA”。GDPval-AA 基准测试覆盖了 44 种职业和 9 个主要行业,旨在评估模型在现实世界知识工作任务中的表现。所有结果均基于 Opus 4.7 在“最大努力”模式下的评估。 关键数据 在 Artificial Analysis Intelligence Index 上获得 57 分(精确分数为 57.3),与 Gemini 3.1 Pro (57.2) 和 GPT-5.4 (56.8) 并列第一。 在衡量通用智能体性能的核心基准 GDPval-AA 上获得 1,753 Elo 评分,成为该基准的新领导者。 在 GDPval-AA 基准上领先次优模型(Claude Sonnet 4.6,1,674 Elo)约 79 个 Elo 点。 结论 Claude Opus 4.7 是目前综合智能水平最高的模型之一,与顶级竞品处于同一梯队。其最大优势在于通用智能体能力,在模拟现实职业任务的基准上表现突出。对于需要模型自主完成复杂、多步骤知识工作的场景,Opus 4.7 是当前的首选之一。 为什么值得看 GDPval-AA 基准直接模拟现实世界的职业任务,其领先地位意味着 Opus 4.7 在辅助或替代人类进行知识工作方面具有强大的实用潜力,是评估模型实际应用价值的关键指标。 原文信息 原始标题:Opus 4.7: Everything you need to know 原文语言:en 来源:Artificial Analysis 链接:https://artificialanalysis.ai/articles/opus-4-7-everything-you-need-to-know 发布时间:2026-04-17T23:52:51.949Z --- 机器猫评测快报,仅收录含明确评测方法和量化结果的内容。