AI 新闻摘要 2026-05-21 - 酷加的博客

模型与能力

OpenAI 通用推理模型破解数学难题

OpenAI 内部模型用 125 页推理推翻了一个 1946 年的 Erdős 单位距离猜想。不是专门的数学系统，而是通用 LLM，数学家 Timothy Gowers 认为这是 AI 解决开放数学问题的最早明确案例。模型并非极限版，未来计划公开。
> 相关链接：OpenAI 公告｜Timothy Gowers 评论｜125 页推理细节

Cohere Command A+ 开源：Apache 2.0，218B MoE

Cohere 发布了最强的开源模型 Command A+，Apache 2.0 许可，218B参数（25B活跃），多模态支持48种语言，硬件要求低（2×H100即可跑）。基准测试接近 Claude 4.5 Haiku，但科学推理和编码偏弱。架构有独特设计：并行Transformer、大量共享专家、LayerNorm等。
> 相关链接：Cohere 发布｜架构分析｜vLLM 支持

Qwen 3.7 预览上线，期待新 27B/35B 开放模型

Qwen 3.7 Preview 已在 Chatbot Arena 上线（含Max/Plus版），Alibaba 排名第6（文本）和第5（视觉）。社区猜测将发布 27B 或 35B 开放权重版本，有人希望更小 4B/9B 便于本地运行，也有人期待 122B 更大模型。当前 Max 版本约等于 GPT 5.4（xhigh）。
> 相关链接：预告推文｜Artificial Analysis 排名｜Reddit 讨论

Gemini 3.5 Flash 免费开放，速度翻倍

Google 将 Gemini 3.5 Flash 免费开放全球，号称是迄今最强的Agent和编程模型，速度比同类快4倍，成本低于一半。但外部评测认为实际性价比和token效率存疑，基准表现好但实际使用有差距。
> 相关链接：Gemini App 公告｜性能质疑讨论

研究与方法

InferenceBench：AI 自动调优评测，前沿Agent 表现还不如手动调参

新基准 InferenceBench 评估 AI R&D 自动化，发现当前最强的 Agent 在系统级工程、依赖管理等方面表现差，甚至不如简单的 vLLM/SGLang 超参调优。还发现逆缩放现象：小模型反而更容易保留稳定状态。
> 相关链接：论文推文

MINTEval：长上下文记忆系统表现堪忧，平均准确率仅27.9%

新基准 MINTEval 测试记忆系统在频繁更新和干扰下的表现，平均上下文长度138.8k token（最长1.8M）。7个系统平均准确率仅27.9%，最好也才33.4%，说明单纯靠 RAG/填上下文不靠谱，记忆应作为独立学习模块。
> 相关链接：发布推文

ThoughtTrace：收集用户对话中的真实想法，提升行为预测41%

大规模数据集包含1万+条心理标注、2155次对话、1058名用户、20种模型。利用这些“潜藏用户状态”，用户行为预测提升41.7%，对齐提升25.6%。这是把对话日志之外的心理活动也纳入训练。
> 相关链接：论文推文

Agent 与工具链

LangChain Sandboxes 正式上线，解决Agent执行环境问题

LangChain 推出 Sandboxes 通用可用版本，为Agent提供隔离执行环境。同时 deepagents 也加入了轻量级代码解释器，在纯工具执行和全沙箱之间找了个折中，解决Agent被依赖冲突和配置折磨的痛点。
> 相关链接：LangChain 公告｜deepagents 更新

SID-1：RL训练的搜索模型，比 GPT-5.1 快24倍、便宜99%

turbopuffer 发布 SID-1，一个 RL 训练的 Agent 搜索模型。在论文设定的场景下召回率比 RAG+重排序高1.9倍，速度提升24倍，成本仅为 GPT-5.1 的1%。适合高性价比的搜索场景。
> 相关链接：发布推文

Weaviate 1.37 加入 MMR 重排序，提升检索多样性

Weaviate 向量数据库新版本支持最大边际相关性（MMR）重排序，让 RAG 和 Agent 的检索结果更多样，避免重复信息。
> 相关链接：发布公告

Cursor/VS Code/Codex 齐更新：自动操作、预览改进、移动端

Cursor 在Agent工作区增加了自动化功能；VS Code 改进了 Markdown/HTML 预览和远程会话连续性；OpenAI Codex 发布了移动端。另外 Composer 2.5 在编码Agent评测中得分62，成本远低于 Opus/GPT-5.5。
> 相关链接：Cursor 更新｜VS Code 更新｜Codex 移动端｜Composer 2.5 评测

Google Science Skills 上线：整合30+生命科学数据源

Google 在 Agent 栈中新增科学技能模块，集成了 UniProt、AlphaFold DB 等30多个生命科学数据源，让 Agent 能直接查询和调用专业科研数据。
> 相关链接：Google DeepMind 公告

产品与应用落地

Gemini Omni：一句话就能编辑视频的多模态模型

Google 推出 Gemini Omni，一个可以对话式创作、编辑视频和混合输入的模型。早期试用反响不错，认为这比单纯升级语言模型更有差异化。配套的 AI Studio 也增强了端到端开发工作流和移动访问。
> 相关链接：Google 发布帖｜Gemini App 演示｜AI Studio 更新

Perplexity 发布上下文压缩系统：减少70% token，质量不降反升

Perplexity 上线了一套查询感知、保留引用的上下文压缩方案，在生产环境中能砍掉70%的上下文 token，同时提升答案质量。在 SimpleQA 上达到50倍压缩率且保持前沿性能。
> 相关链接：Perplexity 推文

行业与公司动态

Anthropic 签下 SpaceX Colossus 算力：每月12.5亿美元

Anthropic 正在 Colossus 2 上大规模扩展算力，文件显示与 SpaceX 的算力协议价值每月12.5亿美元，持续到2029年5月。这可能是目前最贵的AI算力合同之一。
> 相关链接：Anthropic 扩展消息｜协议金额细节

Exa 融资 2.5 亿美元，估值 22 亿：专注 Agent 搜索基础设施

Exa 完成 C 轮融资 2.5 亿美元，估值 22 亿。公司将自身定位为“为Agent 组织网络数据的搜索实验室”，专攻 Agent 的搜索和数据获取能力。
> 相关链接：Exa 融资公告