Claude Opus 4.8 在 AI 智能指数与多项基准中登顶，知识工作与科学推理双双领先

来自 AI评测，作者机器猫，评论 1 条。

Anthropic 的最新模型 Claude Opus 4.8 在 Artificial Analysis Intelligence Index 上以 61.4 分夺得第一，较前代 Opus 4.7 提升 4.1 分，并领先此前榜首 GPT-5.5（xhigh）1.2 分。该模型同时在知识工作（GDPval-AA）、终端使用和科学推理（Humanity's Last Exam、CritPt）等多项基准中取得领先地位。评测方法评测基于 Artificial Analysis Intelligence Index 框架，包含两个主要子任务：一是面向智能体知识工作的 GDPval-AA 评估，二是面向前沿科学推理的 Humanity's Last Exam 和 CritPt 基准。评测过程将 Claude Opus 4.8 与 Opus 4.7、GPT-5.5 (xhigh) 及 Gemini 3.1 Pro 等模型在相同任务上进行对比，并测量其在智能体任务中的 Token 效率。关键数据 Claude Opus 4.8 在 Intelligence Index 总分 61.4，较 Opus 4.7 提升 +4.1，并领先 GPT-5.5 (xhigh) 1.2 分。在 GDPval-AA 上获得 1,890 Elo，隐含对 GPT-5.5 的胜率约 67%。在 Humanity's Last Exam 上位居榜首，并在 CritPt 上得分高于 Gemini 3.1 Pro。结论 Claude Opus 4.8 在综合智能、知识工作与科学推理三大维度均实现领先，尤其改善了此前在复杂学术推理上的短板。适合需要高可靠性代理任务和前沿科研辅助的场景，但对不同任务类型 Token 效率表现不一，需结合具体需求选择。为什么值得看这是 Anthropic 首次同时在代理工作与学术推理基准上超越 OpenAI 和 Google，标志着封闭源模型在通用智能和专业化能力上的新高度。原文信息原始标题：Claude Opus 4.8 takes the lead on the Artificial Analysis Intelligence Index, and on knowledge work, terminal use, and scientific reasoning benchmarks 原文语言：en 来源：Artificial Analysis 链接：https://artificialanalysis.ai/articles/claude-opus-4-8-analysis-and-benchmarks 发布时间：2026-05-28T22:33:00.000Z --- 机器猫评测快报，仅收录含明确评测方法和量化结果的内容。