AI 新闻摘要 2026-06-10

模型与能力

Anthropic 发布 Claude Fable 5 和 Mythos 5：最强模型但争议巨大

Anthropic 推出 Fable 5（公开版）和 Mythos 5（受限版），两者是同一基础模型。Fable 5 在 SWE-Bench Pro 上达 80.3%（GPT-5.5 为 58.6%），CursorBench 72.9%，价格 $10/$50 每百万 token。但附带两项争议政策：静默降低前沿 LLM 开发任务的性能，以及 30 天数据保留。限量免费至 6 月 22 日后转信用点。
> 相关链接：官方介绍｜基准对比

Cohere 发布 North Mini Code：开源编码 MoE 模型

Cohere 推出首个开源代码模型 North Mini Code，30B 总参/3B 活跃 MoE，256K 上下文，最长 64K 输出，Apache 2.0 许可，专为 agent 工作流优化。已在 vLLM 等框架可用。
> 相关链接：Cohere 公告

Gemma 4 聊天模板新增 preserve_thinking

Google 为 Gemma 4 官方模板添加保留推理轨迹的支持，可改善 agent 编码任务的连贯性。社区此前已通过自定义模板实现类似效果，现得到官方认可。尚在 PR 阶段，未完全合并。
> 相关链接：讨论帖

Agent 与工具链

OpenAI 响应 API 新增图像搜索结果

OpenAI 在 Responses API 中加入 web 搜索图像结果，让 agent 能直接返回图片，扩展多模态搜索能力。
> 相关链接：OpenAI Dev 推文

GitHub Copilot 更新：平行子会话与画布界面

GitHub Copilot 引入并行子会话（平行任务）和画布 UI，用于动态生成界面，提升多任务开发效率。
> 相关链接：推文

Hermes Desktop 集成 Ollama，自学习 Python

Nous Research 的 Hermes Desktop 新增 Ollama 支持，可本地运行模型；支持自学习 Python 技能和消息应用集成。
> 相关链接：推文

Temenos 提议沙箱执行生成代码而非代理本体

Temenos 采用 rootless gVisor 沙箱隔离生成的代码，主代理保留在主机上以维持认证和工具访问，提高安全性。
> 相关链接：推文

基础设施与硬件

Xiaomi MiMo 2.5-Pro 达 1000+ tokens/s：1T MoE 在 8 GPU 上推理

小米发布 MiMo-V2.5-Pro-UltraSpeed，在标准 8 GPU 服务器上实现 1T 参数 MoE 模型 1000+ tps。采用选择性 FP4 量化（仅专家层）、DFlash 块级推测解码，推理效率极高。但未指定 GPU 型号，可复现性存疑。
> 相关链接：Reddit 讨论｜HuggingFace 模型

vLLM 发布 vime：强化学习后训练框架

vLLM 生态推出 vime，一个 RL 后训练框架，与 NeMo-RL、OpenRLHF 等竞争，可直接在 vLLM 中训练推理。
> 相关链接：推文

研究与方法

Agents’ Last Exam 发布：最强 agent 仅 2.6%

新基准 ALE 包含 1500+ 任务、55 个职业，测试劳动市场对齐的 agent 能力。顶尖 agent 在最高难度仅得 2.6%，由 300+ 专家、100+ 机构共同构建。
> 相关链接：推文

iOSWorld 基准：手机 agent 最高 52% 成功率

新基准 iOSWorld 用 26 个自定义 iOS 应用和 133 个任务评估个人手机 agent。即使有特权访问，顶级模型也仅 52% 成功率，说明端侧 agent 仍有巨大空间。
> 相关链接：推文

Latent Context Language Models：长上下文压缩 16 倍

新方法 LCLM 通过压缩上下文 token 到潜在表示，将内存占用降低 16 倍，同时保持或提升长任务推理精度，优于 KV 缓存压缩。
> 相关链接：推文

Microsoft Mirage：3D 场景作为潜在 token，视频生成快 10 倍

MSR 提出将 3D 场景编码为潜在 token，视频生成速度提升 10.57 倍，内存使用减少 55 倍，适合沉浸式内容。
> 相关链接：论文推文

Economy of Minds：用拍卖机制协调 agent 群体

论文提出用经济手段（拍卖、激励）替代集中式编排来协调多 agent，使数学推理从 15.9% 提升至 57.0%，金融研究从 45.0% 提升至 60.0%。
> 相关链接：推文

产品与应用落地

Google Gemini 3.5 Flash 推出实时语音翻译

Gemini 3.5 Flash 支持实时语音到语音翻译，覆盖 70+ 语言，已在 Gemini API、AI Studio、Google Translate 上线，即将集成到 Google Meet。
> 相关链接：推文

Mayo Clinic REDMOD：CT 扫描提前 3 年检测胰腺癌

梅奥诊所的 AI 模型 REDMOD 能在 CT 扫描中识别出 73% 的隐匿性胰腺癌，中位提前 475 天诊断，为早期干预打开窗口。
> 相关链接：推文

行业与公司动态

Hugging Face 与 Arcee 合作：用 HF 替代 AWS S3

Arcee 将所有模型和数据集（包括私有）迁移到 Hugging Face 平台，不再依赖 AWS S3，强化开源生态依赖。
> 相关链接：推文

Cohere 强调“主权 AI 为所有人”

Cohere 继续推广主权 AI 路线，提出组织应拥有自己的 AI 基础设施和数据，与 Anthropic 等闭源巨头形成对比。
> 相关链接：推文

政策、治理与安全

Anthropic 对 Fable 5 实施 RSI 抑制与 30 天数据保留

Anthropic 在 Fable 5 中静默降低前沿 LLM 开发请求的质量（通过提示修改、控制向量等），且不通知用户；同时对所有 Mythos 级模型流量强制 30 天数据保留。社区批评这是“抽梯子”、反开放研究，影响科学可复现性。
> 相关链接：系统卡讨论｜社区反应