AI 新闻摘要 2026-05-06

#### **行业与公司动态** ##### **模型厂扎堆搞服务公司：Anthropic 与 OpenAI 新动作** Anthropic 联合黑石等成立合资公司（融资 15 亿），OpenAI 成立 The Deployment Company（融资 40 亿）。两家都发现光卖模型不够，得下场帮企业做落地部署和定制，赚最后一公里的服务钱。 > 相关链接：[Anthropic 合资详情](https://substack.com/redirect/df694500-0f72-4385-a7b6-955df2552cc0?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)｜[OpenAI 部署公司](https://substack.com/redirect/8a31f9f4-5954-4130-938a-e9a61ad04b7e?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)｜[行业分析](https://substack.com/redirect/d0db63ce-2317-4f86-8a69-9bcbae4c2ad2?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks) ##### **RadixArk 融资 1 亿刀：押注 SGLang 与推理基建** 围绕 SGLang 推理栈和 Miles 训练系统的 RadixArk 拿到 1 亿美元种子轮。目标是把前沿基建开源且生产级化，让大家不用重复造调度器和 KV 缓存管理的轮子。 > 相关链接：[融资 announcement](https://substack.com/redirect/e2787d67-923c-4153-b37b-8ff3948c0253?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)｜[社区讨论](https://substack.com/redirect/0732868d-776e-4d66-8f62-190e7ce9a420?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks) --- #### **模型与能力** ##### **GPT-5.5 Instant 成为 ChatGPT 默认模型** OpenAI 把 GPT-5.5 Instant 设为默认，事实性和图像理解有提升。重点加强了个性化：能读取记忆、历史聊天、文件甚至 Gmail，还能显示"记忆来源"让用户知道它参考了啥。 > 相关链接：[官方发布](https://substack.com/redirect/ffd19fdd-82f8-4703-8653-219be5b1cdbf?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)｜[ rollout 细节](https://substack.com/redirect/d5f622fe-b66f-4dac-9cc9-a731ed04f8?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks) ##### **OpenAI 重构语音底层：延迟更低** 为了语音对话更流畅，OpenAI 重写了 WebRTC 栈，用薄中继加状态收发器降低延迟。这暗示语音功能马上要有大更新，目标是跟上真人语速。 > 相关链接：[技术细节](https://substack.com/redirect/dfc28eae-314f-49f6-8ad8-80fccbf136cb?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)｜[语音更新信号](https://substack.com/redirect/629954e1-b26f-4001-b0ca-c40b7fa97c18?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks) ##### **Gemma 4 推理加速 3 倍：多 Token 预测** Google 发布 Gemma 4 MTP drafters，用 speculative decoding 技术，解码速度最高快 3 倍且质量不降。vLLM、Ollama 等主流工具已支持，本地部署党狂喜。 > 相关链接：[Google 发布](https://substack.com/redirect/c05c5390-9762-4119-a62a-ff2be5d6b21d?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)｜[vLLM 支持](https://substack.com/redirect/bfa44cb7-1b9e-4b5e-9a80-448d74761ca0?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks) --- #### **Agent 与工具链** ##### **OpenAI 发布 TypeScript 版 Agents SDK** 开发者工具链继续扩容，OpenAI 推出 TS 版 Agents SDK，包含沙箱 Agent 和开源 harness。方便 JS/TS 开发者更顺滑地集成 Agent 功能。 > 相关链接：[SDK 发布](https://substack.com/redirect/05f32949-790b-44bf-8a4f-67fa30fc98fd?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks) ##### **代码 Agent 体验大乱斗：没有绝对赢家** 社区评测混乱，Droid、Hermes、Codex 各有优劣。有人觉得 Codex 下载量超 Claude Code，也有人觉得 Claude Code 实用感变平。工具链体验还在碎片化阶段。 > 相关链接：[体验对比](https://substack.com/redirect/be3b81f5-42d5-435d-b773-cd5976c3eee1?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)｜[下载量数据](https://substack.com/redirect/c6cd9440-ef37-41da-a531-df65968abb02?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks) ##### **Cursor/Devin 切入安全与 CI 自动化** 自动化不止写代码，还管修 bug 和安全。Cursor 推出监控 GitHub 自动修 CI 失败的 Agent；Devin 推出安全版，能自动修复漏洞甚至提前拦截恶意包。 > 相关链接：[Cursor CI](https://substack.com/redirect/4bbef926-e16a-428c-8419-149c62d8515c?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)｜[Devin 安全](https://substack.com/redirect/d9e1f901-cac9-478d-991a-fae820adf2f8?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks) ##### **llama.cpp 支持 MTP 加速（Beta）** llama.cpp 上线 MTP 支持，针对 Qwen3.x 等模型，吞吐提升 2 倍以上。本地推理党注意，这是目前最大的性能改进之一，尤其对稠密模型效果显著。 > 相关链接：[PR 详情](https://substack.com/redirect/b8dc2c92-265d-40e5-b0cf-b9b3ab3fadb8?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)｜[技术讨论](https://substack.com/redirect/5b3eaff5-7e85-41cf-8593-a985f568ef58?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks) --- #### **研究与方法** ##### **Meta ProgramBench：整库生成准确率 0%** Meta 新基准测试要求模型从零生成完整软件（如 SQLite），结果顶尖模型准确率也是 0%。虽然能过部分测试，但离真正"整库生成"还差得远，基准争议很大。 > 相关链接：[基准介绍](https://substack.com/redirect/dd5f782f-3f3f-40d7-a6dc-fde7a893f8a8?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)｜[结果讨论](https://substack.com/redirect/99e8b9f1-d36f-44b3-ada0-01483837d018?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks) ##### **RL 基础设施转向长周期系统** RL 环境不再只是"单次生成 + 奖励"，转向支持数千环境的长周期系统。Forge、ROLL 等新框架出现，重点解决 rollout 延迟和 KV 缓存管理问题。 > 相关链接：[环境框架对比](https://substack.com/redirect/e07d842e-62fc-47e4-94b0-b3f0319f1c68?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)｜[Agentic RL survey](https://substack.com/redirect/dfe02ce8-a0c8-4efb-99ed-9523957a9f98?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks) ##### **可观测性要做成反馈闭环** LangChain 等指出光有 Trace 不够，得把反馈连上。观测系统要能直接挖掘错误、定位组件故障并自动修复，形成"数据 - 修复 - 测试"的闭环。 > 相关链接：[LangChain 观点](https://substack.com/redirect/ad96e7ad-48e3-4f35-9f6f-04da891bdb18?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)｜[Raindrop Triage](https://substack.com/redirect/a2a94053-2f2a-442c-a471-32da9fe8c788?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks) --- #### **产品与应用落地** ##### **Anthropic 推金融 Agent 模板** Anthropic 发布金融服务业 Agent 模板，涵盖 pitches、估值审查、KYC 等，集成了 FactSet、S&P 等数据源。金融已是 Claude 第二大收入来源，落地动作很快。 > 相关链接：[模板发布](https://substack.com/redirect/1b620d4c-4df1-4ba4-b924-978df5fa8c48?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)｜[金融事件](https://substack.com/redirect/f1f20024-7b38-4780-a941-7abb510f0b98?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks) ##### **Perplexity 进军金融与医疗专业版** Perplexity 推出金融专业版（35 个工作流）和医疗数据访问（NEJM、BMJ 等期刊）。不再只是通用搜索，开始打包 licensed 数据做垂直工作流产品。 > 相关链接：[金融版](https://substack.com/redirect/3c3f1fc2-0ebf-498b-b2d5-65f58412d8b8?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)｜[医疗数据](https://substack.com/redirect/e72574e1-b3d7-40f8-9a29-a7415f000a78?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks) ##### **Anthropic Orbit 主动助手泄露** 泄露显示 Anthropic 在测 Orbit，一个不用提示就能主动合成 Gmail、Slack、GitHub 数据的助手。Manus 也加了类似的情景推荐连接器，主动助手成新赛道。 > 相关链接：[Orbit 泄露](https://substack.com/redirect/1fe51626-55d9-42d4-898a-bdbff2e0f0a8?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)｜[Manus 更新](https://substack.com/redirect/776feb05-194f-4777-84e2-f663fcbb8888?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks) ##### **OpenAI Codex UX 更新：任务进度 UI** OpenAI 继续优化 Codex 体验，新增任务进度 UI 和 Auto Review 功能，降低审批摩擦。社区反馈 5.5 版本在高 token 预算的编码和非编码工作流上表现更强。 > 相关链接：[UX 更新](https://substack.com/redirect/edf5d608-ca07-4bc4-a4e5-e8b0aff0ff38?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)｜[社区反馈](https://substack.com/redirect/24418cfe-0407-481d-888f-27e383805648?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks) --- #### **基础设施与硬件** ##### **推理成本看提供商脸色：Cache 命中是关键** 同一模型在不同提供商那速度/价格差异巨大。测试显示 Cache 命中率是 V4 时代降低成本的主轴，SambaNova 速度最快，Fireworks 性价比在前。 > 相关链接：[提供商对比](https://substack.com/redirect/4160c83e-93f7-4689-8c4d-f86c98ab9cc8?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)｜[Cache 优化](https://substack.com/redirect/3275fd40-40a5-4fc3-aba9-cd85c7b3a678?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks) ##### **模型冷启动优化 60 倍** 新系统通过直接从持有权重的 GPU 服务，而不是云存储，把冷启动从分钟级降到秒级，提速 60 倍。解决 serverless 推理等待时间长的问题。 > 相关链接：[冷启动优化](https://substack.com/redirect/768123e4-d88d-42d9-ad7d-3b13fcff959d?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks) ##### **DeepMind 分布式训练优化：带宽省 240 倍** DeepMind 的 Decoupled DiLoCo 技术在大规模训练时，用更少的跨数据中心带宽（省 240 倍）实现了更高的有效吞吐（88% vs 27%）。 > 相关链接：[训练优化](https://substack.com/redirect/0c55c45e-462f-4bda-8b67-cda68fdc3b9d?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)

评论