AI 新闻摘要 2026-05-21

发布于 2026年05月21日

模型与能力

OpenAI 通用推理模型破解数学难题

OpenAI 内部模型用 125 页推理推翻了一个 1946 年的 Erdős 单位距离猜想。不是专门的数学系统,而是通用 LLM,数学家 Timothy Gowers 认为这是 AI 解决开放数学问题的最早明确案例。模型并非极限版,未来计划公开。
> 相关链接:OpenAI 公告Timothy Gowers 评论125 页推理细节

Cohere Command A+ 开源:Apache 2.0,218B MoE

Cohere 发布了最强的开源模型 Command A+,Apache 2.0 许可,218B参数(25B活跃),多模态支持48种语言,硬件要求低(2×H100即可跑)。基准测试接近 Claude 4.5 Haiku,但科学推理和编码偏弱。架构有独特设计:并行Transformer、大量共享专家、LayerNorm等。
> 相关链接:Cohere 发布架构分析vLLM 支持

Qwen 3.7 预览上线,期待新 27B/35B 开放模型

Qwen 3.7 Preview 已在 Chatbot Arena 上线(含Max/Plus版),Alibaba 排名第6(文本)和第5(视觉)。社区猜测将发布 27B 或 35B 开放权重版本,有人希望更小 4B/9B 便于本地运行,也有人期待 122B 更大模型。当前 Max 版本约等于 GPT 5.4(xhigh)。
> 相关链接:预告推文Artificial Analysis 排名Reddit 讨论

Gemini 3.5 Flash 免费开放,速度翻倍

Google 将 Gemini 3.5 Flash 免费开放全球,号称是迄今最强的Agent和编程模型,速度比同类快4倍,成本低于一半。但外部评测认为实际性价比和token效率存疑,基准表现好但实际使用有差距。
> 相关链接:Gemini App 公告性能质疑讨论


研究与方法

InferenceBench:AI 自动调优评测,前沿Agent 表现还不如手动调参

新基准 InferenceBench 评估 AI R&D 自动化,发现当前最强的 Agent 在系统级工程、依赖管理等方面表现差,甚至不如简单的 vLLM/SGLang 超参调优。还发现逆缩放现象:小模型反而更容易保留稳定状态。
> 相关链接:论文推文

MINTEval:长上下文记忆系统表现堪忧,平均准确率仅27.9%

新基准 MINTEval 测试记忆系统在频繁更新和干扰下的表现,平均上下文长度138.8k token(最长1.8M)。7个系统平均准确率仅27.9%,最好也才33.4%,说明单纯靠 RAG/填上下文不靠谱,记忆应作为独立学习模块。
> 相关链接:发布推文

ThoughtTrace:收集用户对话中的真实想法,提升行为预测41%

大规模数据集包含1万+条心理标注、2155次对话、1058名用户、20种模型。利用这些“潜藏用户状态”,用户行为预测提升41.7%,对齐提升25.6%。这是把对话日志之外的心理活动也纳入训练。
> 相关链接:论文推文


Agent 与工具链

LangChain Sandboxes 正式上线,解决Agent执行环境问题

LangChain 推出 Sandboxes 通用可用版本,为Agent提供隔离执行环境。同时 deepagents 也加入了轻量级代码解释器,在纯工具执行和全沙箱之间找了个折中,解决Agent被依赖冲突和配置折磨的痛点。
> 相关链接:LangChain 公告deepagents 更新

SID-1:RL训练的搜索模型,比 GPT-5.1 快24倍、便宜99%

turbopuffer 发布 SID-1,一个 RL 训练的 Agent 搜索模型。在论文设定的场景下召回率比 RAG+重排序高1.9倍,速度提升24倍,成本仅为 GPT-5.1 的1%。适合高性价比的搜索场景。
> 相关链接:发布推文

Weaviate 1.37 加入 MMR 重排序,提升检索多样性

Weaviate 向量数据库新版本支持最大边际相关性(MMR)重排序,让 RAG 和 Agent 的检索结果更多样,避免重复信息。
> 相关链接:发布公告

Cursor/VS Code/Codex 齐更新:自动操作、预览改进、移动端

Cursor 在Agent工作区增加了自动化功能;VS Code 改进了 Markdown/HTML 预览和远程会话连续性;OpenAI Codex 发布了移动端。另外 Composer 2.5 在编码Agent评测中得分62,成本远低于 Opus/GPT-5.5。
> 相关链接:Cursor 更新VS Code 更新Codex 移动端Composer 2.5 评测

Google Science Skills 上线:整合30+生命科学数据源

Google 在 Agent 栈中新增科学技能模块,集成了 UniProt、AlphaFold DB 等30多个生命科学数据源,让 Agent 能直接查询和调用专业科研数据。
> 相关链接:Google DeepMind 公告


产品与应用落地

Gemini Omni:一句话就能编辑视频的多模态模型

Google 推出 Gemini Omni,一个可以对话式创作、编辑视频和混合输入的模型。早期试用反响不错,认为这比单纯升级语言模型更有差异化。配套的 AI Studio 也增强了端到端开发工作流和移动访问。
> 相关链接:Google 发布帖Gemini App 演示AI Studio 更新

Perplexity 发布上下文压缩系统:减少70% token,质量不降反升

Perplexity 上线了一套查询感知、保留引用的上下文压缩方案,在生产环境中能砍掉70%的上下文 token,同时提升答案质量。在 SimpleQA 上达到50倍压缩率且保持前沿性能。
> 相关链接:Perplexity 推文


行业与公司动态

Anthropic 签下 SpaceX Colossus 算力:每月12.5亿美元

Anthropic 正在 Colossus 2 上大规模扩展算力,文件显示与 SpaceX 的算力协议价值每月12.5亿美元,持续到2029年5月。这可能是目前最贵的AI算力合同之一。
> 相关链接:Anthropic 扩展消息协议金额细节

Exa 融资 2.5 亿美元,估值 22 亿:专注 Agent 搜索基础设施

Exa 完成 C 轮融资 2.5 亿美元,估值 22 亿。公司将自身定位为“为Agent 组织网络数据的搜索实验室”,专攻 Agent 的搜索和数据获取能力。
> 相关链接:Exa 融资公告




评论