AI 新闻摘要 2026-06-10

发布于 2026年06月10日

模型与能力

Anthropic 发布 Claude Fable 5 和 Mythos 5:最强模型但争议巨大

Anthropic 推出 Fable 5(公开版)和 Mythos 5(受限版),两者是同一基础模型。Fable 5 在 SWE-Bench Pro 上达 80.3%(GPT-5.5 为 58.6%),CursorBench 72.9%,价格 $10/$50 每百万 token。但附带两项争议政策:静默降低前沿 LLM 开发任务的性能,以及 30 天数据保留。限量免费至 6 月 22 日后转信用点。
> 相关链接:官方介绍基准对比

Cohere 发布 North Mini Code:开源编码 MoE 模型

Cohere 推出首个开源代码模型 North Mini Code,30B 总参/3B 活跃 MoE,256K 上下文,最长 64K 输出,Apache 2.0 许可,专为 agent 工作流优化。已在 vLLM 等框架可用。
> 相关链接:Cohere 公告

Gemma 4 聊天模板新增 preserve_thinking

Google 为 Gemma 4 官方模板添加保留推理轨迹的支持,可改善 agent 编码任务的连贯性。社区此前已通过自定义模板实现类似效果,现得到官方认可。尚在 PR 阶段,未完全合并。
> 相关链接:讨论帖


Agent 与工具链

OpenAI 响应 API 新增图像搜索结果

OpenAI 在 Responses API 中加入 web 搜索图像结果,让 agent 能直接返回图片,扩展多模态搜索能力。
> 相关链接:OpenAI Dev 推文

GitHub Copilot 更新:平行子会话与画布界面

GitHub Copilot 引入并行子会话(平行任务)和画布 UI,用于动态生成界面,提升多任务开发效率。
> 相关链接:推文

Hermes Desktop 集成 Ollama,自学习 Python

Nous Research 的 Hermes Desktop 新增 Ollama 支持,可本地运行模型;支持自学习 Python 技能和消息应用集成。
> 相关链接:推文

Temenos 提议沙箱执行生成代码而非代理本体

Temenos 采用 rootless gVisor 沙箱隔离生成的代码,主代理保留在主机上以维持认证和工具访问,提高安全性。
> 相关链接:推文


基础设施与硬件

Xiaomi MiMo 2.5-Pro 达 1000+ tokens/s:1T MoE 在 8 GPU 上推理

小米发布 MiMo-V2.5-Pro-UltraSpeed,在标准 8 GPU 服务器上实现 1T 参数 MoE 模型 1000+ tps。采用选择性 FP4 量化(仅专家层)、DFlash 块级推测解码,推理效率极高。但未指定 GPU 型号,可复现性存疑。
> 相关链接:Reddit 讨论HuggingFace 模型

vLLM 发布 vime:强化学习后训练框架

vLLM 生态推出 vime,一个 RL 后训练框架,与 NeMo-RL、OpenRLHF 等竞争,可直接在 vLLM 中训练推理。
> 相关链接:推文


研究与方法

Agents’ Last Exam 发布:最强 agent 仅 2.6%

新基准 ALE 包含 1500+ 任务、55 个职业,测试劳动市场对齐的 agent 能力。顶尖 agent 在最高难度仅得 2.6%,由 300+ 专家、100+ 机构共同构建。
> 相关链接:推文

iOSWorld 基准:手机 agent 最高 52% 成功率

新基准 iOSWorld 用 26 个自定义 iOS 应用和 133 个任务评估个人手机 agent。即使有特权访问,顶级模型也仅 52% 成功率,说明端侧 agent 仍有巨大空间。
> 相关链接:推文

Latent Context Language Models:长上下文压缩 16 倍

新方法 LCLM 通过压缩上下文 token 到潜在表示,将内存占用降低 16 倍,同时保持或提升长任务推理精度,优于 KV 缓存压缩。
> 相关链接:推文

Microsoft Mirage:3D 场景作为潜在 token,视频生成快 10 倍

MSR 提出将 3D 场景编码为潜在 token,视频生成速度提升 10.57 倍,内存使用减少 55 倍,适合沉浸式内容。
> 相关链接:论文推文

Economy of Minds:用拍卖机制协调 agent 群体

论文提出用经济手段(拍卖、激励)替代集中式编排来协调多 agent,使数学推理从 15.9% 提升至 57.0%,金融研究从 45.0% 提升至 60.0%。
> 相关链接:推文


产品与应用落地

Google Gemini 3.5 Flash 推出实时语音翻译

Gemini 3.5 Flash 支持实时语音到语音翻译,覆盖 70+ 语言,已在 Gemini API、AI Studio、Google Translate 上线,即将集成到 Google Meet。
> 相关链接:推文

Mayo Clinic REDMOD:CT 扫描提前 3 年检测胰腺癌

梅奥诊所的 AI 模型 REDMOD 能在 CT 扫描中识别出 73% 的隐匿性胰腺癌,中位提前 475 天诊断,为早期干预打开窗口。
> 相关链接:推文


行业与公司动态

Hugging Face 与 Arcee 合作:用 HF 替代 AWS S3

Arcee 将所有模型和数据集(包括私有)迁移到 Hugging Face 平台,不再依赖 AWS S3,强化开源生态依赖。
> 相关链接:推文

Cohere 强调“主权 AI 为所有人”

Cohere 继续推广主权 AI 路线,提出组织应拥有自己的 AI 基础设施和数据,与 Anthropic 等闭源巨头形成对比。
> 相关链接:推文


政策、治理与安全

Anthropic 对 Fable 5 实施 RSI 抑制与 30 天数据保留

Anthropic 在 Fable 5 中静默降低前沿 LLM 开发请求的质量(通过提示修改、控制向量等),且不通知用户;同时对所有 Mythos 级模型流量强制 30 天数据保留。社区批评这是“抽梯子”、反开放研究,影响科学可复现性。
> 相关链接:系统卡讨论社区反应




评论