AI 新闻摘要 2026-05-06
发布于 2026年05月08日
#### **行业与公司动态**
##### **模型厂扎堆搞服务公司:Anthropic 与 OpenAI 新动作**
Anthropic 联合黑石等成立合资公司(融资 15 亿),OpenAI 成立 The Deployment Company(融资 40 亿)。两家都发现光卖模型不够,得下场帮企业做落地部署和定制,赚最后一公里的服务钱。
> 相关链接:[Anthropic 合资详情](https://substack.com/redirect/df694500-0f72-4385-a7b6-955df2552cc0?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)|[OpenAI 部署公司](https://substack.com/redirect/8a31f9f4-5954-4130-938a-e9a61ad04b7e?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)|[行业分析](https://substack.com/redirect/d0db63ce-2317-4f86-8a69-9bcbae4c2ad2?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)
##### **RadixArk 融资 1 亿刀:押注 SGLang 与推理基建**
围绕 SGLang 推理栈和 Miles 训练系统的 RadixArk 拿到 1 亿美元种子轮。目标是把前沿基建开源且生产级化,让大家不用重复造调度器和 KV 缓存管理的轮子。
> 相关链接:[融资 announcement](https://substack.com/redirect/e2787d67-923c-4153-b37b-8ff3948c0253?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)|[社区讨论](https://substack.com/redirect/0732868d-776e-4d66-8f62-190e7ce9a420?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)
---
#### **模型与能力**
##### **GPT-5.5 Instant 成为 ChatGPT 默认模型**
OpenAI 把 GPT-5.5 Instant 设为默认,事实性和图像理解有提升。重点加强了个性化:能读取记忆、历史聊天、文件甚至 Gmail,还能显示"记忆来源"让用户知道它参考了啥。
> 相关链接:[官方发布](https://substack.com/redirect/ffd19fdd-82f8-4703-8653-219be5b1cdbf?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)|[ rollout 细节](https://substack.com/redirect/d5f622fe-b66f-4dac-9cc9-a731ed04f8?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)
##### **OpenAI 重构语音底层:延迟更低**
为了语音对话更流畅,OpenAI 重写了 WebRTC 栈,用薄中继加状态收发器降低延迟。这暗示语音功能马上要有大更新,目标是跟上真人语速。
> 相关链接:[技术细节](https://substack.com/redirect/dfc28eae-314f-49f6-8ad8-80fccbf136cb?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)|[语音更新信号](https://substack.com/redirect/629954e1-b26f-4001-b0ca-c40b7fa97c18?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)
##### **Gemma 4 推理加速 3 倍:多 Token 预测**
Google 发布 Gemma 4 MTP drafters,用 speculative decoding 技术,解码速度最高快 3 倍且质量不降。vLLM、Ollama 等主流工具已支持,本地部署党狂喜。
> 相关链接:[Google 发布](https://substack.com/redirect/c05c5390-9762-4119-a62a-ff2be5d6b21d?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)|[vLLM 支持](https://substack.com/redirect/bfa44cb7-1b9e-4b5e-9a80-448d74761ca0?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)
---
#### **Agent 与工具链**
##### **OpenAI 发布 TypeScript 版 Agents SDK**
开发者工具链继续扩容,OpenAI 推出 TS 版 Agents SDK,包含沙箱 Agent 和开源 harness。方便 JS/TS 开发者更顺滑地集成 Agent 功能。
> 相关链接:[SDK 发布](https://substack.com/redirect/05f32949-790b-44bf-8a4f-67fa30fc98fd?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)
##### **代码 Agent 体验大乱斗:没有绝对赢家**
社区评测混乱,Droid、Hermes、Codex 各有优劣。有人觉得 Codex 下载量超 Claude Code,也有人觉得 Claude Code 实用感变平。工具链体验还在碎片化阶段。
> 相关链接:[体验对比](https://substack.com/redirect/be3b81f5-42d5-435d-b773-cd5976c3eee1?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)|[下载量数据](https://substack.com/redirect/c6cd9440-ef37-41da-a531-df65968abb02?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)
##### **Cursor/Devin 切入安全与 CI 自动化**
自动化不止写代码,还管修 bug 和安全。Cursor 推出监控 GitHub 自动修 CI 失败的 Agent;Devin 推出安全版,能自动修复漏洞甚至提前拦截恶意包。
> 相关链接:[Cursor CI](https://substack.com/redirect/4bbef926-e16a-428c-8419-149c62d8515c?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)|[Devin 安全](https://substack.com/redirect/d9e1f901-cac9-478d-991a-fae820adf2f8?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)
##### **llama.cpp 支持 MTP 加速(Beta)**
llama.cpp 上线 MTP 支持,针对 Qwen3.x 等模型,吞吐提升 2 倍以上。本地推理党注意,这是目前最大的性能改进之一,尤其对稠密模型效果显著。
> 相关链接:[PR 详情](https://substack.com/redirect/b8dc2c92-265d-40e5-b0cf-b9b3ab3fadb8?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)|[技术讨论](https://substack.com/redirect/5b3eaff5-7e85-41cf-8593-a985f568ef58?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)
---
#### **研究与方法**
##### **Meta ProgramBench:整库生成准确率 0%**
Meta 新基准测试要求模型从零生成完整软件(如 SQLite),结果顶尖模型准确率也是 0%。虽然能过部分测试,但离真正"整库生成"还差得远,基准争议很大。
> 相关链接:[基准介绍](https://substack.com/redirect/dd5f782f-3f3f-40d7-a6dc-fde7a893f8a8?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)|[结果讨论](https://substack.com/redirect/99e8b9f1-d36f-44b3-ada0-01483837d018?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)
##### **RL 基础设施转向长周期系统**
RL 环境不再只是"单次生成 + 奖励",转向支持数千环境的长周期系统。Forge、ROLL 等新框架出现,重点解决 rollout 延迟和 KV 缓存管理问题。
> 相关链接:[环境框架对比](https://substack.com/redirect/e07d842e-62fc-47e4-94b0-b3f0319f1c68?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)|[Agentic RL survey](https://substack.com/redirect/dfe02ce8-a0c8-4efb-99ed-9523957a9f98?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)
##### **可观测性要做成反馈闭环**
LangChain 等指出光有 Trace 不够,得把反馈连上。观测系统要能直接挖掘错误、定位组件故障并自动修复,形成"数据 - 修复 - 测试"的闭环。
> 相关链接:[LangChain 观点](https://substack.com/redirect/ad96e7ad-48e3-4f35-9f6f-04da891bdb18?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)|[Raindrop Triage](https://substack.com/redirect/a2a94053-2f2a-442c-a471-32da9fe8c788?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)
---
#### **产品与应用落地**
##### **Anthropic 推金融 Agent 模板**
Anthropic 发布金融服务业 Agent 模板,涵盖 pitches、估值审查、KYC 等,集成了 FactSet、S&P 等数据源。金融已是 Claude 第二大收入来源,落地动作很快。
> 相关链接:[模板发布](https://substack.com/redirect/1b620d4c-4df1-4ba4-b924-978df5fa8c48?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)|[金融事件](https://substack.com/redirect/f1f20024-7b38-4780-a941-7abb510f0b98?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)
##### **Perplexity 进军金融与医疗专业版**
Perplexity 推出金融专业版(35 个工作流)和医疗数据访问(NEJM、BMJ 等期刊)。不再只是通用搜索,开始打包 licensed 数据做垂直工作流产品。
> 相关链接:[金融版](https://substack.com/redirect/3c3f1fc2-0ebf-498b-b2d5-65f58412d8b8?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)|[医疗数据](https://substack.com/redirect/e72574e1-b3d7-40f8-9a29-a7415f000a78?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)
##### **Anthropic Orbit 主动助手泄露**
泄露显示 Anthropic 在测 Orbit,一个不用提示就能主动合成 Gmail、Slack、GitHub 数据的助手。Manus 也加了类似的情景推荐连接器,主动助手成新赛道。
> 相关链接:[Orbit 泄露](https://substack.com/redirect/1fe51626-55d9-42d4-898a-bdbff2e0f0a8?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)|[Manus 更新](https://substack.com/redirect/776feb05-194f-4777-84e2-f663fcbb8888?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)
##### **OpenAI Codex UX 更新:任务进度 UI**
OpenAI 继续优化 Codex 体验,新增任务进度 UI 和 Auto Review 功能,降低审批摩擦。社区反馈 5.5 版本在高 token 预算的编码和非编码工作流上表现更强。
> 相关链接:[UX 更新](https://substack.com/redirect/edf5d608-ca07-4bc4-a4e5-e8b0aff0ff38?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)|[社区反馈](https://substack.com/redirect/24418cfe-0407-481d-888f-27e383805648?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)
---
#### **基础设施与硬件**
##### **推理成本看提供商脸色:Cache 命中是关键**
同一模型在不同提供商那速度/价格差异巨大。测试显示 Cache 命中率是 V4 时代降低成本的主轴,SambaNova 速度最快,Fireworks 性价比在前。
> 相关链接:[提供商对比](https://substack.com/redirect/4160c83e-93f7-4689-8c4d-f86c98ab9cc8?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)|[Cache 优化](https://substack.com/redirect/3275fd40-40a5-4fc3-aba9-cd85c7b3a678?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)
##### **模型冷启动优化 60 倍**
新系统通过直接从持有权重的 GPU 服务,而不是云存储,把冷启动从分钟级降到秒级,提速 60 倍。解决 serverless 推理等待时间长的问题。
> 相关链接:[冷启动优化](https://substack.com/redirect/768123e4-d88d-42d9-ad7d-3b13fcff959d?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)
##### **DeepMind 分布式训练优化:带宽省 240 倍**
DeepMind 的 Decoupled DiLoCo 技术在大规模训练时,用更少的跨数据中心带宽(省 240 倍)实现了更高的有效吞吐(88% vs 27%)。
> 相关链接:[训练优化](https://substack.com/redirect/0c55c45e-462f-4bda-8b67-cda68fdc3b9d?j=eyJ1IjoiODFuZzZnIn0.DqSuNZuPLuUvIr8psMZlLj3AnDy-k_JFtkczohwe9Ks)
评论