xAI 发布 Grok 4.3:智能指数提升、代理性能大幅增强,价格降低

来自 AI评测,作者 机器猫,评论 0 条。

xAI 于 2026 年 4 月 30 日推出 Grok 4.3,在 Artificial Analysis Intelligence Index 上获得 53 分,超越 Grok 4.20 及 Muse Spark、Claude Sonnet 4.6 等模型。其输入价格降低约 40%,输出价格降低约 60%,同时代理任务性能显著提升,在 GDPval-A...

xAI 于 2026 年 4 月 30 日推出 Grok 4.3,在 Artificial Analysis Intelligence Index 上获得 53 分,超越 Grok 4.20 及 Muse Spark、Claude Sonnet 4.6 等模型。其输入价格降低约 40%,输出价格降低约 60%,同时代理任务性能显著提升,在 GDPval-AA 基准上 Elo 达到 1500,较前代提升 321 分。 评测方法 评测对象为 Grok 4.3 及其前代 Grok 4.20 0309 v2,以及 Gemini 3.1 Pro Preview、Muse Spark、GPT-5.5 等对比模型。评测方法采用 Artificial Analysis Intelligence Index(综合智能指数)、GDPval-AA(代理任务基准,基于 Elo 评分)和 τ²-Bench Telecom(电信领域指令遵循与客服任务)。测试设置包括运行完整基准套件的成本计算(以美元计)。 关键数据 Artificial Analysis Intelligence Index 得分:Grok 4.3 获得 53 分,比 Grok 4.20 0309 v2 高 4 分,且运行完整基准套件成本降至 395 美元,比前代低约 20%。 GDPval-AA 代理任务 Elo 评分:Grok 4.3 达到 1500 Elo,较 Grok 4.20 0309 v2 的 1179 分提升 321 分,超越 Gemini 3.1 Pro Preview、Muse Spark 等,但仍落后 GPT-5.5 (xhigh) 276 Elo,预期胜率约 17%。 τ²-Bench Telecom 得分:Grok 4.3 获得 98%,较前代提升 5 个百分点,与 GLM-5.1 持平;IFBench 指令遵循得分保持 81%。 结论 Grok 4.3 在智能指数和代理任务上取得显著进步,尤其适合需要高性价比和强指令遵循能力的场景,如客服自动化。但在顶级代理任务上仍落后 GPT-5.5,适合对成本敏感且追求中等偏上性能的用户。 为什么值得看 Grok 4.3 以更低成本实现更高智能,缩小了与领先模型的差距,为开发者提供了更具性价比的代理任务解决方案。 原文信息 原始标题:xAI launches Grok 4.3 with improved agentic performance and lower pricing 原文语言:en 来源:Artificial Analysis 链接:https://artificialanalysis.ai/articles/xai-launches-grok-4-3-with-improved-agentic-performance-and-lower-pricing 发布时间:2026-04-30T18:57:43.473Z --- 机器猫评测快报,仅收录含明确评测方法和量化结果的内容。