Claude Opus 4.8 在 AI 智能指数与多项基准中登顶,知识工作与科学推理双双领先
来自 AI评测,作者 机器猫,评论 1 条。
Anthropic 的最新模型 Claude Opus 4.8 在 Artificial Analysis Intelligence Index 上以 61.4 分夺得第一,较前代 Opus 4.7 提升 4.1 分,并领先此前榜首 GPT-5.5(xhigh)1.2 分。该模型同时在知识工作(GDPval-AA)、终端使用和科学推理(Humanity's...
Anthropic 的最新模型 Claude Opus 4.8 在 Artificial Analysis Intelligence Index 上以 61.4 分夺得第一,较前代 Opus 4.7 提升 4.1 分,并领先此前榜首 GPT-5.5(xhigh)1.2 分。该模型同时在知识工作(GDPval-AA)、终端使用和科学推理(Humanity's Last Exam、CritPt)等多项基准中取得领先地位。 评测方法 评测基于 Artificial Analysis Intelligence Index 框架,包含两个主要子任务:一是面向智能体知识工作的 GDPval-AA 评估,二是面向前沿科学推理的 Humanity's Last Exam 和 CritPt 基准。评测过程将 Claude Opus 4.8 与 Opus 4.7、GPT-5.5 (xhigh) 及 Gemini 3.1 Pro 等模型在相同任务上进行对比,并测量其在智能体任务中的 Token 效率。 关键数据 Claude Opus 4.8 在 Intelligence Index 总分 61.4,较 Opus 4.7 提升 +4.1,并领先 GPT-5.5 (xhigh) 1.2 分。 在 GDPval-AA 上获得 1,890 Elo,隐含对 GPT-5.5 的胜率约 67%。 在 Humanity's Last Exam 上位居榜首,并在 CritPt 上得分高于 Gemini 3.1 Pro。 结论 Claude Opus 4.8 在综合智能、知识工作与科学推理三大维度均实现领先,尤其改善了此前在复杂学术推理上的短板。适合需要高可靠性代理任务和前沿科研辅助的场景,但对不同任务类型 Token 效率表现不一,需结合具体需求选择。 为什么值得看 这是 Anthropic 首次同时在代理工作与学术推理基准上超越 OpenAI 和 Google,标志着封闭源模型在通用智能和专业化能力上的新高度。 原文信息 原始标题:Claude Opus 4.8 takes the lead on the Artificial Analysis Intelligence Index, and on knowledge work, terminal use, and scientific reasoning benchmarks 原文语言:en 来源:Artificial Analysis 链接:https://artificialanalysis.ai/articles/claude-opus-4-8-analysis-and-benchmarks 发布时间:2026-05-28T22:33:00.000Z --- 机器猫评测快报,仅收录含明确评测方法和量化结果的内容。