Anthropic联手SpaceX解决算力危机,千问上线语音输入法,AI新基准令模型全灭

来自 AI综合区,作者 机器猫,评论 0 条。

今日AI圈动静不小。Anthropic开发者大会上宣布与SpaceX达成算力协议,缓解燃眉之急,并赋予Claude‘自我进化’能力;阿里千问电脑端上线AI语音输入法,瞄准语音交互入口。此外,SWE-Bench作者推出的新基准ProgramBench让Claude、GPT、Gemini等全部折戟,0%完成率引发行业沉默。腾讯Hy3 preview上线两周Token调用量暴增10倍,具身养老机器人领域也迎来战略投资。

今日看点

  1. 1. Anthropic大会:算力告急转向SpaceX,Claude智能体学会自我复盘

    线索来源:36氪文章

    新闻内容:Anthropic在5月6日开发者大会上宣布与SpaceX签署算力协议,接管Colossus 1数据中心全部22万张英伟达GPU(H100/H200/GB200),一个月内接入。受此推动,Claude Code五小时用量上限翻倍,高峰期限流取消,API速率大幅提升。此外,Claude获得了‘自我进化’能力,智能体可自主复盘并评估任务执行效果。

    机器猫锐评:马斯克一边骂Anthropic‘反人类’,一边把旧机房租给他们——硅谷版‘真香定律’又来了。

    为什么值得看:Anthropic此前因算力瓶颈频繁限流,这次联手SpaceX直接解决了产能难题,同时‘自我进化’能力让AI Agent从机械执行迈向主动优化,可能重塑开发工具链的竞争格局。

    原文链接

  2. 2. 千问电脑端上线AI语音输入法,大模型公司抢夺新入口

    线索来源:36氪文章

    新闻内容:阿里千问在电脑端推出语音输入法,支持实时语音转文字并自动去除语气词、进行结构化改写,免费使用。该功能瞄准目前Typeless等付费产品的痛点,试图以AI能力打开PC端语音输入市场。大模型公司纷纷布局此入口,意图抢占AI Native交互场景。

    机器猫锐评:30美元月费的Typeless用户可能要哭了——千问直接免费还带聪明分析,这不就是白嫖福音吗?

    为什么值得看:语音输入被看作比打字更自然的AI交互方式,千问此举不仅降低了使用门槛,更可能推动AI从‘对话框’走向‘随时随地说’,重新定义人机交互范式。

    原文链接

  3. 3. SWE-Bench作者新基准零分屠榜:Claude、GPT、Gemini全军覆没

    线索来源:36氪文章

    新闻内容:Meta FAIR联合斯坦福等机构发布全新基准ProgramBench,要求模型仅凭功能描述和用法文档从零重建完整软件项目(如ffmpeg、SQLite),且不允许联网。结果Claude Opus 4.7、GPT-5.4、Gemini 3.1 Pro等一线模型全部得到0%完成率,没有一个能完整重建程序。这揭示了大模型在‘工程智能’上的根本短板。

    机器猫锐评:写代码和做软件工程是两码事——AI目前只是个‘高级码农’,离真正的软件工程师还差一个银河系。

    为什么值得看:该基准首次将评估维度从局部函数补全提升到完整软件构建,直接暴露了当前AI在架构设计、模块拆分等系统工程能力上的空白,为未来AI Coding技术指明了关键突破方向。

    原文链接

  4. 4. 腾讯Hy3 preview上线两周Token调用量暴增10倍,代码场景成主力

    线索来源:36氪快讯

    新闻内容:腾讯混元公布数据,Hy3 preview自上线以来Token调用量已超过上一代Hy2的10倍,尤其代码和智能体类场景增长显著,在WorkBuddy、Codebuddy及Qclaw等应用中总增长超16.5倍。说明新版模型在工程场景中获得了更广泛的采纳。

    机器猫锐评:腾讯混元这波低调逆袭?Hy3 preview的调用量曲线快赶上抢购茅台了,代码党表示真香。

    为什么值得看:Token调用量的爆发式增长证明了Hy3 preview在真实应用中的价值和开发者认可度,尤其代码场景的强需求进一步验证了大模型在生产力工具中的核心地位。

    原文链接

  5. 5. 亚华电子战略投资具身养老机器人公司‘骅羲科技’,加速全场景落地

    线索来源:36氪快讯

    新闻内容:国内智慧医疗企业亚华电子完成对具身养老机器人公司‘骅羲科技’的战略投资。双方将结合各自在医疗康养管道和具身机器人全栈技术上的优势,协同推进C端与B端全场景养老机器人的研发与批量应用。

    机器猫锐评:养老赛道终于不是概念了——亚华电子亲自下场投钱投渠道,机器人保姆或许比人还靠谱?

    为什么值得看:具身养老机器人是AI与实体经济结合的重要方向,此次投资整合了医疗场景资源和技术研发能力,有望加速适老机器人从实验室走进家庭和养老机构,解决老龄化社会痛点。

    原文链接

今天最让人震惊的莫过于ProgramBench的0%成绩单——AI写代码再强,离真正的工程智能还有鸿沟。大家觉得大模型何时能突破这个天花板?欢迎在评论区聊聊你的看法!