AI 日报 2026-06-03

发布于 2026年06月03日

模型与能力

微软发布 MAI-Thinking-1:35B 活跃参数的推理模型

微软在 Build 大会上推出旗舰推理模型 MAI-Thinking-1,35B 活跃参数的 MoE,256K 上下文。AIME 2025 达 97%,SWE-Bench Pro 53%,盲测偏好超过 Sonnet 4.6。使用 8192 张 GB200 训练,声称零蒸馏、零合成数据,并发布 109 页技术报告。
> 相关链接:Mustafa 推文技术报告Scaling01 总结

MAI-Code-1-Flash、MAI-Image-2.5、MAI-Transcribe-1.5 等模型也来了

微软还发布了代码模型 MAI-Code-1-Flash(5B 参数量,SWE-Bench Pro 51%)、图像模型 MAI-Image-2.5(排行榜第二,超越 Nano Banana 2)、语音转写 MAI-Transcribe-1.5(276x 实时,43 种语言,$6/千分钟)以及语音模型 MAI-Voice-2。全部可通过 OpenRouter、fal 等平台使用。
> 相关链接:OpenRouter 上线Transcribe 评测图像排名

H Company 发布 Holo 3.1:本地计算机操控模型

H Company 推出 Holo 3.1 系列,基于 Qwen 架构,参数量从 0.8B 到 35B,支持 NVFP4、FP8 等格式。35B 模型在 AndroidWorld 上达到 79.3%,可用于本地设备操控,适合隐私敏感的计算机使用场景。
> 相关链接:官方推文评测总结

OpenRouter 数据:开源模型占流量 69%,路由成为关键

OpenRouter 分享数据,开源权重模型占了 69.1% 的 token 流量,闭源只有 30.9%。多位业内人士(Clement Delangue、garrytan)认为模型路由将成为未来重要抽象层,但也有人指出企业生产环境下通用路由仍有难度。
> 相关链接:数据推文讨论反对观点


Agent 与工具链

GitHub Copilot 发布桌面 App,主打 agent 原生开发

GitHub 在 Build 上推出 Copilot 桌面应用,提供画布、跨设备连续性(CLI/移动/Web/本地/云),Copilot CLI 增加了终端 UI、语音输入、任务调度。微软强调 Copilot 将成为 agent 原生软件开发的家。
> 相关链接:产品发布CLI 更新行业反应

微软推出 Web IQ:面向 AI Agent 的搜索与 grounding API

微软发布 Web IQ,一套为 AI agent 设计的 grounding API,支持网页、新闻、图片、视频。架构从 Bing 重构,强调质量、低延迟和 token 效率。宣称已支撑 Copilot、ChatGPT 等绝大多数 AI 聊天和 agent。
> 相关链接:官方介绍

Windows 成为 Agent 运行时:Project Solara/Scout 概念硬件亮相

微软在 Build 上强调 Windows 作为 agent 的安全执行层。发布 Project Solara(agent 优先设备概念,含桌面伴侣和可穿戴徽章)和 Scout(全天候个人 agent)。同时推出 Surface RTX Spark Dev Box,可本地运行 120B 参数模型。
> 相关链接:Yusuf Mehdi 推文TheTuringPost 分析硬件细节

Anthropic 推出 Claude 平台 CLI 并升级 /fork 功能

Anthropic 发布了 Claude Platform 的命令行工具,并升级了 Claude Code 的 /fork 命令,可在后台运行 agent,准确传递上下文和使用 prompt cache,提升了开发者的 agent 编程体验。
> 相关链接:CLI 发布/fork 更新

Harvey + LangChain 展示低成本验证器:成本降低 1000 倍

Harvey 和 LangChain 合作,用 DeepSeek V4 Flash 作为验证器,在合法 agent 任务中保持 94-96% 的 Agree 率,成本从 18000 美元降至 18 美元(批量模式)。可大幅降低 RL 训练中的验证开销。
> 相关链接:Harvey 推文LangChain 推文详细数据

W&B 发布 Weave 2.0:Agent 优先的可观测性工具

W&B 重新发布 Weave,聚焦 agent 观测,集成常见 agent 框架,自动检测失败模式(如循环、拒绝)。帮助开发者调试和优化 agent 行为,降低生产事故。
> 相关链接:W&B 推文详细说明


基础设施与硬件

微软 MAIA 200 芯片:MAI 模型跑得更好更省电

微软介绍自研芯片 MAIA 200,运行 MAI 模型时性能/美元比 GB200 高 30%,性能/瓦特高 1.4 倍。Training 使用了 8192 张 GB200,但后续推理将优先用自研芯片,强调硬件与模型协同设计。
> 相关链接:Mustafa 推文技术细节

Together 优化 MiniMax-M3:吞吐提升 81-125%

Together 发布 MiniMax-M3 服务优化,通过稀疏注意力(KV-block-major)、分页解码等改进,实现吞吐量提升 81-125%。MiniMax 自身也强调 MSA 机制将注意力解码时间占比从 30% 降至 5%。
> 相关链接:Together 推文MiniMax 介绍

Prime-RL 集成 Mooncake Store,实现跨节点 KV 缓存复用

Prime-RL 将 Mooncake Store 与 vLLM 整合,支持跨节点的前缀/KV 缓存共享,大幅降低 agent 滚动推理的重复计算开销,对 RL 推理场景尤其有价值。
> 相关链接:推文

Westmag 融资 1100 万美元,制造美国机器人驱动器

Westmag 走出隐身模式,旨在制造美国本土的机器人执行器和无人机电机,由 a16z 领投,Founders Fund、Lux 等参投。代表硬件供应链回归趋势。
> 相关链接:融资消息Packy 评论


研究与方法

MAI-Thinking-1 技术报告获好评:109 页,透明度极高

微软公开 109 页技术报告,披露无合成数据、无蒸馏的训练管线,数据源自 Common Crawl + 私有来源,使用 DSPy/GEPA 优化评分器。RL 从零推理能力起步(AIME 从 20% 冲到 95%)。研究者称其为”新时代教科书式报告”。
> 相关链接:报告链接Eli Bakouch 解读Nrehiew 评论

Google DeepMind 发布 Co-Scientist:多 Agent 科研助手

DeepMind 推出基于 Gemini 的多 agent 系统 Co-Scientist,用于自动生成科学假设。已在肝纤维化靶点、ALS 疗法、衰老基因等方面提供有意义的合作结果,展示 agent 在科研场景的潜力。
> 相关链接:官方推文功能介绍

Tilde Research 提出 Wall Attention:无 RoPE,外推至 200K+

Tilde Research 发布 Wall Attention,一种不使用 RoPE 的注意力方法,通过对角遗忘门实现。在 4K 长度训练后可外推到 200K+ 令牌,并提供 Triton 内核,解码吞吐表现强劲。
> 相关链接:论文推文

多个新基准发布:图像编辑、视频跟踪、数据 Agent

PaintBench 评估精确图像编辑,当前最好模型仅 17.1%。VSTAT 测试视频状态跟踪,前沿多模态模型仍表现差。Data Agent Benchmark 关注企业数据工作流。这些基准暴露了现有模型的短板。
> 相关链接:PaintBenchVSTATData Agent


产品与应用落地

OpenAI 推出 Sites in Codex:将想法一键变成内部网站

OpenAI 在 Codex 中新增 Sites 功能,让团队把文档、计划直接部署为可用的内部网站/应用,带认证和动态数据。先面向企业和商业用户,简化内部工具开发流程。
> 相关链接:OpenAI 推文GDB 演示

Perplexity 发布混合推理模式:本地模型 + 云端模型协同

Perplexity Computer 推出混合 agent 推理,将敏感任务用本地模型处理,复杂推理交给前沿云模型,兼顾隐私和性能。标志着本地+云混合成为 agent 产品的新趋势。
> 相关链接:官方推文Arav Srinivas 推文

Martin Scorsese 用 FLUX 做分镜:AI 辅助电影创作

Martin Scorsese 公开演示使用 Black Forest Labs 的 FLUX 模型进行故事板生成,强调仍以手绘为主,AI 为辅。这是知名导演首次展示 AI 在电影前期制作中的实际应用。
> 相关链接:Rob Rombach 推文TheRundownAI 总结

Nous 发布 Hermes Desktop:本地 agent 桌面端

Nous Research 推出 Hermes Desktop,为 Hermes agent 提供本地原生桌面界面,支持 Tailscale/Ollama 集成,让用户本地运行 agent,无需依赖云端。
> 相关链接:Nous 推文Tailscale 集成

Cognition 发布 Devin Desktop:agent 中立桌面管理

Cognition 推出 Devin Desktop,一个 agent 中立的桌面平台,可管理本地和云端 agent,支持本地规划与云端执行的切换,进一步推动 agent 工作流的桌面化。
> 相关链接:Cognition 推文Scott Wu 推文


行业与公司动态

微软 Build 大会:从云到端的全栈 AI 平台押注

Satya Nadella 与 Mustafa Suleyman 将 Build 定位为生态转型,不再只做云和 API,而是模型、芯片、OS、应用全面自研。强调”人文主义超级智能”,并预测 AI 算力三年增长 1000 倍。
> 相关链接:Satya 采访Mustafa 推文算力预测

PyTorch 宣布 NVIDIA 采用 OpenMDW-1.1 开源模型许可框架

PyTorch 表示 NVIDIA 已在四个开源模型家族中采用 OpenMDW-1.1 许可框架,这是一种宽松的 AI 模型许可协议,有望推动行业标准化。
> 相关链接:PyTorch 推文

“Mythos FLOPs 泄露”乌龙:微软幻灯片引算力猜测

Build 上某幻灯片被解读为泄露 Anthropic Claude Mythos 的训练算力,引发数小时讨论。后经多方分析,该数字被证实为不准确估计,相关猜测已撤回。
> 相关链接:最初猜测修正




评论