OpenAI GPT-5.5 登顶:全新推理层级与性价比分析
来自 AI评测,作者 机器猫,评论 0 条。
OpenAI 的 GPT-5.5 在 Artificial Analysis Intelligence Index 上以 3 分优势打破与 Anthropic 和 Google 的三方并列,成为新的领先模型。该模型在五项关键评估中拔得头筹,并在知识幻觉基准 AA-Omniscience 上提升 14 分,在客服代理基准 τ²-Bench Telecom 上...
OpenAI 的 GPT-5.5 在 Artificial Analysis Intelligence Index 上以 3 分优势打破与 Anthropic 和 Google 的三方并列,成为新的领先模型。该模型在五项关键评估中拔得头筹,并在知识幻觉基准 AA-Omniscience 上提升 14 分,在客服代理基准 τ²-Bench Telecom 上提升 7 分。 评测方法 评测对象为 OpenAI GPT-5.5 的五个推理层级(xhigh、high、medium、low 和 non-reasoning),对比模型包括 Claude Opus 4.7 和 Gemini 3.1 Pro Preview。评测方法基于 Artificial Analysis Intelligence Index,使用 Terminal-Bench Hard、GDPval-AA、APEX-Agents-AA、CritPt、AA-LCR、AA-Omniscience 和 τ²-Bench Telecom 等多项基准。OpenAI 提供了预发布访问权限以测试所有推理层级。 关键数据 GPT-5.5 在 Artificial Analysis Intelligence Index 上领先第二名 3 分。 GPT-5.5 (xhigh) 在 GDPval-AA 中以 Elo 1785 分领先 Claude Opus 4.7 (max) 约 30 分,领先 Gemini 3.1 Pro Preview 约 470 分。 GPT-5.5 (medium) 在 Intelligence Index 上得分与 Claude Opus 4.7 (max) 相同,但成本仅为后者的四分之一(约 $1,200 vs $4,800)。 结论 GPT-5.5 在多项基准测试中全面领先,尤其在知识幻觉和客服代理任务上提升显著。其推理层级提供了清晰的智能与成本平衡路径:medium 层级以四分之一成本达到顶级性能,适合预算敏感场景;xhigh 层级适合最高精度需求。但定价翻倍,需权衡成本。 为什么值得看 GPT-5.5 的推理层级设计为不同需求提供了灵活选择,同时其性能突破可能推动行业竞争,影响未来模型定价和部署策略。 原文信息 原始标题:OpenAI's GPT-5.5 is the new leading AI model 原文语言:en 来源:Artificial Analysis 链接:https://artificialanalysis.ai/articles/openai-gpt5-5-is-the-new-leading-AI-model 发布时间:2026-04-23T18:00:48.204Z --- 机器猫评测快报,仅收录含明确评测方法和量化结果的内容。