AI 新闻摘要 2026-05-20

模型与能力

Gemini 3.5 Flash 正式上线

Google 在 I/O 上发布了 Gemini 3.5 Flash，宣称是最强的代理/编码模型。支持 1M 上下文、65k 输出、4 级思考，并保留跨轮思考。价格 $1.5/$9 每百万 token，比前代 Flash 贵不少，但速度和智能在前沿模型中领先。第三方评测显示它跑得极快（>280 tok/s），在编码和代理任务上表现突出。
> 相关链接：Google 官方推文｜GoogleDeepMind 说明｜Artificial Analysis 评测｜Arena 排名

Gemini Omni Flash 发布：多模态生成和编辑

Google 推出 Gemini Omni 系列，首款 Omni Flash 能接收文本、图片、视频、音频，输出视频。强调世界理解、物理真实感和多轮编辑时场景一致性。已在 Gemini 应用和 Flow 中面向付费用户上线，即将提供 API。
> 相关链接：GoogleDeepMind 公告｜Google 官方推文

Agent 与工具链

Antigravity 2.0：Google 的代理操作系统

Google 升级了 Antigravity 平台，推出桌面应用、CLI、SDK 和 Managed Agents（托管 Linux 沙箱）。演示了用 93 个并行子代理在 12 小时内构建一个完整操作系统，仅花费不到 $1000 API 费用。定位为开发者执行多代理、长周期任务的基础设施。
> 相关链接：Antigravity 2.0 发布｜Google 代理堆栈介绍｜OS 演示详情

Gemini Spark：24/7 个人云代理

Google 推出 Gemini Spark，运行在云端虚拟机，可以执行长期后台任务，比如持续搜索监控或日程管理。在采取重大操作前会征得用户同意，旨在成为全天候的个人 AI 助手。
> 相关链接：Google 官方推文｜GeminiApp 补充

GitHub Copilot 和 Cursor 纷纷集成 Gemini 3.5 Flash

GitHub 宣布 Copilot 接入 Gemini 3.5 Flash，提升工具调用和响应速度。Cursor 则集成 Jira，让云代理直接接收工单并生成可合并的 PR 代码，进一步打通开发工作流。
> 相关链接：GitHub 公告｜Cursor 集成详情

研究与方法

Hugging Face 发布 Carbon DNA 模型：快 250 倍

Carbon 是一个生成式 DNA 基础模型家族，3B 参数性能匹敌 Evo2-7B，但推理速度快 250-275 倍，单 GPU 两天内可处理整个人类基因组。使用了 6-mer tokenization 和因子化损失函数。模型、训练代码和数据全部开源。
> 相关链接：Carbon 发布推文｜技术细节

RL 后训练方向：密集信用分配 vs 教学 RL

多位研究者讨论了下一代 RL 训练方法。一方认为应从 GRPO 走向更密集的信用分配（如 ECHO、Composer2），另一方提出“教学 RL”：训练一个自我教师模型来生成正确且易跟随的轨迹。目前尚无共识。
> 相关链接：密集信用分配讨论｜教学 RL 观点

编码代理目前只能完成 9.3% 的人工研究进展

Intology AI 发布 NanoGPT-Bench 基准，测试编码代理能否推进 AI 研究。结果显示 Codex、Claude Code 等代理仅恢复了人类 9.3% 的进展，而且主要是调参，不是算法创新。
> 相关链接：NanoGPT-Bench 报告

代理评估的瓶颈：验证器质量

社区指出当前代理基准的扩展依赖更好的验证器（如 SWE-bench Verified、OSWorld-Verified），而非单纯增加任务数量。验证器质量决定了评估信号的可信度。
> 相关链接：Shahules786 分析

产品与应用落地

Google Search 可实时生成工具和模拟

Google 宣布使用 Antigravity + Gemini 3.5 Flash，在搜索中动态生成自定义 UI、工具和交互式模拟。用户搜个话题就能直接看到可以操作的小应用，不再只是链接。
> 相关链接：Google 官方推文｜搜索更新详情

Gemini for Science：AI 辅助科研工具集

Google 推出专门面向科学家的三个原型：文献综合（NotebookLM 风格）、假设生成（多智能体“想法竞赛”）、计算发现（并行生成数千代码变体并评分）。ERA 相关论文已发表在 Nature。
> 相关链接：Google 官方推文｜Nature 论文

Gemini App 大更新：新 UI、即时语音、每日简报

Google 更新了 Gemini 移动和桌面应用，引入“神经表达”设计语言、即时语音对话、每日个性化简报（整合日历/邮件/任务），并推出 macOS 原生应用。
> 相关链接：Google 官方推文｜Daily Brief 说明

行业与公司动态

Andrej Karpathy 加入 Anthropic

前 OpenAI/Tesla 研究员 Karpathy 宣布加入 Anthropic，表示要重新投入研发。消息称他将负责自研究和预训练方向，被视为 Anthropic 的重大人才引进。
> 相关链接：Karpathy 本人推文｜Axios 报道

OpenAI 推出 Guaranteed Capacity：锁定计算资源

OpenAI 发布新商业产品，允许客户签订 1-3 年合约锁定推理计算容量，获得折扣。Sam Altman 表示世界将长期面临算力紧张，该产品为保障关键工作负载而设计。
> 相关链接：OpenAI 公告｜Sam Altman 推文

Google 调整订阅定价：新增 $100 档，Ultra 降价

Google 推出每月 $100 的新订阅计划，同时将 Ultra 订阅从 $250/月降至 $200/月。此举被认为是针对高端编程和创作用户的激进定价策略。
> 相关链接：Google 官方推文｜GeminiApp 说明

政策、治理与安全

Google 推广 SynthID 内容认证，OpenAI/NVIDIA 加入

Google 宣布将 SynthID 水印集成到搜索、Chrome 等多处，并与 OpenAI、NVIDIA、Kakao、ElevenLabs 合作，让各自生成的媒体也打上 SynthID 或 C2PA 凭证。意在建立跨平台的内容来源标准。
> 相关链接：Google 官方推文｜OpenAI 支持声明

METR 发布首份前沿风险报告：聚焦内部代理失控

非营利组织 METR 基于对 Anthropic、Google、Meta、OpenAI 的内部访问，发布报告评估实验室是否可能失去对自主代理的控制。报告包含详细的 CoT 分析和控制方案，是领域内首个此类透明度报告。
> 相关链接：METR 报告推文｜报告全文

新安全标准组织 Guidelight 成立

Steven Adler 和 Page Hedley 联合成立 Guidelight，是一个制定 AI 安全运营标准的组织，已发布首批两个标准。这表明安全领域正从模型评测走向行业规范。
> 相关链接：Guidelight 公告