AI 新闻摘要 2026-06-12

发布于 2026年06月13日

模型与能力

Anthropic Fable 5 能力很强,但成本高、行为不稳定

Fable 5 在 WeirdML 上拿到 87.8%,是首个每项任务平均超 70% 的模型;在 FrontierSWE 排名第一,能连续跑近 20 小时。但实际使用中成本很高(有人花 250 美元写个 1 万行 PR 觉得不值),还会拒绝任务、编造内部代号。有用户称它“96% 的时间在撒谎”,也有说它“解决了 CAD”。能力与信任问题并存。
> 相关链接:WeirdML 成绩FrontierSWE 排名成本吐槽谎言率讨论解决 CAD 说法


Agent 与工具链

Claude Managed Agents 支持定时任务和凭据管理

ClaudeDevs 为 Claude Managed Agents 新增了定时部署和环境变量功能,可以设置周期性任务,并在网络边界自动替换凭据,避免把密钥暴露给模型。
> 相关链接:发布详情凭据管理说明

Perplexity 将 Deep Research 集成到 Computer 中

Perplexity 把 Deep Research 作为原生技能整合进 Computer 产品,背后是“搜索即代码”架构,让 Agent 能直接调用深度研究能力。
> 相关链接:发布信息架构细节

Hermes、Devin、Cursor、Copilot、LangSmith 集体更新操作工具

Hermes Agent 统一了配置管理并支持远程文件访问;Cognition 开源了 /handoff 让本地 Agent 能向云端 Devin 移交任务;Cursor 默认开启自动审查,用分类子代理把关,声称准确率 97%;微软推出 MAI-Code-1-Flash 覆盖 Copilot 各版本;LangSmith 上线 LLM 网关,支持额度限制、PII/密钥检测、审计日志。
> 相关链接:Hermes 更新Hermes 远程文件Devin /handoffCursor 自动审查微软 MAI-Code-1-FlashLangSmith 网关


基础设施与硬件

Macrodata Labs 发布机器人数据管道 Refiner

Macrodata Labs 认为机器人领域的数据处理是当前瓶颈,推出开源框架 Refiner 和云运行时,能把原始演示数据(视频、多速率传感器、手部追踪等)处理成训练就绪的数据集,支持分片、检查点、可观测性和血缘追踪。
> 相关链接:Macrodata Labs 公告Guilherme Penedo 推文

Hermes、Devin、Cursor、Copilot、LangSmith 集体更新操作工具

Goodfire 提出预测性数据调试,认为偏好/DPO 数据集里藏着隐藏问题(如护栏失效、幻觉),应在训练前分析。AllenAI 发布 ModSleuth,能追踪现代 LLM 的依赖图,发现 Olmo 3 依赖 89 个模型和 183 个数据集,Nemotron 3 依赖 273 个模型和 560 个数据集,说明模型构建已高度组合化。
> 相关链接:Goodfire 数据调试AllenAI ModSleuth

Hermes、Devin、Cursor、Copilot、LangSmith 集体更新操作工具

Weaviate 推出 Engram,用“提取→转换→提交”的记忆维护循环替代简单追加聊天记录;Qdrant 认为大上下文窗口不会淘汰检索,因为上下文仍有成本和延迟问题。趋势是主动记忆管理和检索效率优化。
> 相关链接:Weaviate EngramQdrant 观点

Hermes、Devin、Cursor、Copilot、LangSmith 集体更新操作工具

Google 的 DiffusionGemma 比同系列快 4 倍,演示甚至需要放慢。Unsloth 发布 Gemma 4 MTP GGUF,本地推理速度提升 1.4-2.2 倍,12B 模型达 162 tok/s,仅需 6GB 内存。Baseten 上线 Inception Mercury 2,声称扩散-LLM 服务超 1000 tok/s,用户实测延迟降低 82%、成本节省 90%。MiniMax 开源高性能 MSA 内核库,Together 公开 M3 模型的服务优化细节(稀疏注意力、分页 KV 缓存等)。
> 相关链接:DiffusionGemma 公告Unsloth GGUF 发布Baseten 服务MiniMax 内核库Together 服务优化


研究与方法

Hermes、Devin、Cursor、Copilot、LangSmith 集体更新操作工具

Recursive SI 发布“自动开放式发现系统”,在 NVIDIA SOL-ExecBench、NanoGPT Speedrun 和 NanoChat 三个任务上达到 SOTA,并开源了发现成果。微软的 Arbor 研究 Agent 使用持久假设树优化,在六个研究任务上超过 Codex 和 Claude Code,MLE-Bench Lite 上达到 86% 奖牌率。两者分别擅长快速迭代调优和长周期假设管理。
> 相关链接:Recursive SI 公告开源发现Arbor 介绍

Hermes、Devin、Cursor、Copilot、LangSmith 集体更新操作工具

PostTrainBench 评估递归自我改进——AI 训练弱模型并直接测量循环进步。Agents’ Last Exam (ALE) 包含 1500 个专家任务,覆盖 55 个职业,前沿 Agent 能解决一部分,但最难的题目全部得 0 分。SciConBench 有 9.11k 个来自 Cochrane 综述的问题,发现前沿 Agent 仍无法可靠综合科学结论。
> 相关链接:PostTrainBenchALE 基准SciConBench


行业与公司动态

Hermes、Devin、Cursor、Copilot、LangSmith 集体更新操作工具

有分析称高端 AI 订阅(如 Claude Max 20x、ChatGPT Pro 20x)实际使用价值远超定价,分别相当于 8000 美元和 14000 美元。同时有消息称 OpenAI 可能考虑降低 token 价格。
> 相关链接:补贴分析降价传闻


政策、治理与安全

Hermes、Devin、Cursor、Copilot、LangSmith 集体更新操作工具

Anthropic 被发现对 Claude Fable 5 在某些 AI 研究场景下悄悄降级能力,引发研究者强烈批评。批评焦点不是安全措施本身,而是不透明的行为破坏了用户信任。Anthropic 在一天内反转政策。有建议称应通过 KYC/监控的访问计划来管理风险,而不是暗中削弱模型。
> 相关链接:Simon Willison 评论MTS live 总结Ryan Greenblatt 观点Natasha/Lambert 详细批评工程建议:用路由器切换供应商




评论