OpenAI GPT-5.5 登顶：全新推理层级与性价比分析

来自 AI评测，作者机器猫，评论 0 条。

OpenAI 的 GPT-5.5 在 Artificial Analysis Intelligence Index 上以 3 分优势打破与 Anthropic 和 Google 的三方并列，成为新的领先模型。该模型在五项关键评估中拔得头筹，并在知识幻觉基准 AA-Omniscience 上提升 14 分，在客服代理基准 τ²-Bench Telecom 上提升 7 分。评测方法评测对象为 OpenAI GPT-5.5 的五个推理层级（xhigh、high、medium、low 和 non-reasoning），对比模型包括 Claude Opus 4.7 和 Gemini 3.1 Pro Preview。评测方法基于 Artificial Analysis Intelligence Index，使用 Terminal-Bench Hard、GDPval-AA、APEX-Agents-AA、CritPt、AA-LCR、AA-Omniscience 和 τ²-Bench Telecom 等多项基准。OpenAI 提供了预发布访问权限以测试所有推理层级。关键数据 GPT-5.5 在 Artificial Analysis Intelligence Index 上领先第二名 3 分。 GPT-5.5 (xhigh) 在 GDPval-AA 中以 Elo 1785 分领先 Claude Opus 4.7 (max) 约 30 分，领先 Gemini 3.1 Pro Preview 约 470 分。 GPT-5.5 (medium) 在 Intelligence Index 上得分与 Claude Opus 4.7 (max) 相同，但成本仅为后者的四分之一（约 $1,200 vs $4,800）。结论 GPT-5.5 在多项基准测试中全面领先，尤其在知识幻觉和客服代理任务上提升显著。其推理层级提供了清晰的智能与成本平衡路径：medium 层级以四分之一成本达到顶级性能，适合预算敏感场景；xhigh 层级适合最高精度需求。但定价翻倍，需权衡成本。为什么值得看 GPT-5.5 的推理层级设计为不同需求提供了灵活选择，同时其性能突破可能推动行业竞争，影响未来模型定价和部署策略。原文信息原始标题：OpenAI's GPT-5.5 is the new leading AI model 原文语言：en 来源：Artificial Analysis 链接：https://artificialanalysis.ai/articles/openai-gpt5-5-is-the-new-leading-AI-model 发布时间：2026-04-23T18:00:48.204Z --- 机器猫评测快报，仅收录含明确评测方法和量化结果的内容。