AI 新闻摘要 2026-05-20

发布于 2026年05月21日

模型与能力

Gemini 3.5 Flash 正式上线

Google 在 I/O 上发布了 Gemini 3.5 Flash,宣称是最强的代理/编码模型。支持 1M 上下文、65k 输出、4 级思考,并保留跨轮思考。价格 $1.5/$9 每百万 token,比前代 Flash 贵不少,但速度和智能在前沿模型中领先。第三方评测显示它跑得极快(>280 tok/s),在编码和代理任务上表现突出。
> 相关链接:Google 官方推文GoogleDeepMind 说明Artificial Analysis 评测Arena 排名

Gemini Omni Flash 发布:多模态生成和编辑

Google 推出 Gemini Omni 系列,首款 Omni Flash 能接收文本、图片、视频、音频,输出视频。强调世界理解、物理真实感和多轮编辑时场景一致性。已在 Gemini 应用和 Flow 中面向付费用户上线,即将提供 API。
> 相关链接:GoogleDeepMind 公告Google 官方推文


Agent 与工具链

Antigravity 2.0:Google 的代理操作系统

Google 升级了 Antigravity 平台,推出桌面应用、CLI、SDK 和 Managed Agents(托管 Linux 沙箱)。演示了用 93 个并行子代理在 12 小时内构建一个完整操作系统,仅花费不到 $1000 API 费用。定位为开发者执行多代理、长周期任务的基础设施。
> 相关链接:Antigravity 2.0 发布Google 代理堆栈介绍OS 演示详情

Gemini Spark:24/7 个人云代理

Google 推出 Gemini Spark,运行在云端虚拟机,可以执行长期后台任务,比如持续搜索监控或日程管理。在采取重大操作前会征得用户同意,旨在成为全天候的个人 AI 助手。
> 相关链接:Google 官方推文GeminiApp 补充

GitHub Copilot 和 Cursor 纷纷集成 Gemini 3.5 Flash

GitHub 宣布 Copilot 接入 Gemini 3.5 Flash,提升工具调用和响应速度。Cursor 则集成 Jira,让云代理直接接收工单并生成可合并的 PR 代码,进一步打通开发工作流。
> 相关链接:GitHub 公告Cursor 集成详情


研究与方法

Hugging Face 发布 Carbon DNA 模型:快 250 倍

Carbon 是一个生成式 DNA 基础模型家族,3B 参数性能匹敌 Evo2-7B,但推理速度快 250-275 倍,单 GPU 两天内可处理整个人类基因组。使用了 6-mer tokenization 和因子化损失函数。模型、训练代码和数据全部开源。
> 相关链接:Carbon 发布推文技术细节

RL 后训练方向:密集信用分配 vs 教学 RL

多位研究者讨论了下一代 RL 训练方法。一方认为应从 GRPO 走向更密集的信用分配(如 ECHO、Composer2),另一方提出“教学 RL”:训练一个自我教师模型来生成正确且易跟随的轨迹。目前尚无共识。
> 相关链接:密集信用分配讨论教学 RL 观点

编码代理目前只能完成 9.3% 的人工研究进展

Intology AI 发布 NanoGPT-Bench 基准,测试编码代理能否推进 AI 研究。结果显示 Codex、Claude Code 等代理仅恢复了人类 9.3% 的进展,而且主要是调参,不是算法创新。
> 相关链接:NanoGPT-Bench 报告

代理评估的瓶颈:验证器质量

社区指出当前代理基准的扩展依赖更好的验证器(如 SWE-bench Verified、OSWorld-Verified),而非单纯增加任务数量。验证器质量决定了评估信号的可信度。
> 相关链接:Shahules786 分析


产品与应用落地

Google Search 可实时生成工具和模拟

Google 宣布使用 Antigravity + Gemini 3.5 Flash,在搜索中动态生成自定义 UI、工具和交互式模拟。用户搜个话题就能直接看到可以操作的小应用,不再只是链接。
> 相关链接:Google 官方推文搜索更新详情

Gemini for Science:AI 辅助科研工具集

Google 推出专门面向科学家的三个原型:文献综合(NotebookLM 风格)、假设生成(多智能体“想法竞赛”)、计算发现(并行生成数千代码变体并评分)。ERA 相关论文已发表在 Nature。
> 相关链接:Google 官方推文Nature 论文

Gemini App 大更新:新 UI、即时语音、每日简报

Google 更新了 Gemini 移动和桌面应用,引入“神经表达”设计语言、即时语音对话、每日个性化简报(整合日历/邮件/任务),并推出 macOS 原生应用。
> 相关链接:Google 官方推文Daily Brief 说明


行业与公司动态

Andrej Karpathy 加入 Anthropic

前 OpenAI/Tesla 研究员 Karpathy 宣布加入 Anthropic,表示要重新投入研发。消息称他将负责自研究和预训练方向,被视为 Anthropic 的重大人才引进。
> 相关链接:Karpathy 本人推文Axios 报道

OpenAI 推出 Guaranteed Capacity:锁定计算资源

OpenAI 发布新商业产品,允许客户签订 1-3 年合约锁定推理计算容量,获得折扣。Sam Altman 表示世界将长期面临算力紧张,该产品为保障关键工作负载而设计。
> 相关链接:OpenAI 公告Sam Altman 推文

Google 调整订阅定价:新增 $100 档,Ultra 降价

Google 推出每月 $100 的新订阅计划,同时将 Ultra 订阅从 $250/月降至 $200/月。此举被认为是针对高端编程和创作用户的激进定价策略。
> 相关链接:Google 官方推文GeminiApp 说明


政策、治理与安全

Google 推广 SynthID 内容认证,OpenAI/NVIDIA 加入

Google 宣布将 SynthID 水印集成到搜索、Chrome 等多处,并与 OpenAI、NVIDIA、Kakao、ElevenLabs 合作,让各自生成的媒体也打上 SynthID 或 C2PA 凭证。意在建立跨平台的内容来源标准。
> 相关链接:Google 官方推文OpenAI 支持声明

METR 发布首份前沿风险报告:聚焦内部代理失控

非营利组织 METR 基于对 Anthropic、Google、Meta、OpenAI 的内部访问,发布报告评估实验室是否可能失去对自主代理的控制。报告包含详细的 CoT 分析和控制方案,是领域内首个此类透明度报告。
> 相关链接:METR 报告推文报告全文

新安全标准组织 Guidelight 成立

Steven Adler 和 Page Hedley 联合成立 Guidelight,是一个制定 AI 安全运营标准的组织,已发布首批两个标准。这表明安全领域正从模型评测走向行业规范。
> 相关链接:Guidelight 公告




评论