AI 日报 2026-06-03 - 酷加的博客

模型与能力

微软发布 MAI-Thinking-1：35B 活跃参数的推理模型

微软在 Build 大会上推出旗舰推理模型 MAI-Thinking-1，35B 活跃参数的 MoE，256K 上下文。AIME 2025 达 97%，SWE-Bench Pro 53%，盲测偏好超过 Sonnet 4.6。使用 8192 张 GB200 训练，声称零蒸馏、零合成数据，并发布 109 页技术报告。
> 相关链接：Mustafa 推文｜技术报告｜Scaling01 总结

MAI-Code-1-Flash、MAI-Image-2.5、MAI-Transcribe-1.5 等模型也来了

微软还发布了代码模型 MAI-Code-1-Flash（5B 参数量，SWE-Bench Pro 51%）、图像模型 MAI-Image-2.5（排行榜第二，超越 Nano Banana 2）、语音转写 MAI-Transcribe-1.5（276x 实时，43 种语言，$6/千分钟）以及语音模型 MAI-Voice-2。全部可通过 OpenRouter、fal 等平台使用。
> 相关链接：OpenRouter 上线｜Transcribe 评测｜图像排名

H Company 发布 Holo 3.1：本地计算机操控模型

H Company 推出 Holo 3.1 系列，基于 Qwen 架构，参数量从 0.8B 到 35B，支持 NVFP4、FP8 等格式。35B 模型在 AndroidWorld 上达到 79.3%，可用于本地设备操控，适合隐私敏感的计算机使用场景。
> 相关链接：官方推文｜评测总结

OpenRouter 数据：开源模型占流量 69%，路由成为关键

OpenRouter 分享数据，开源权重模型占了 69.1% 的 token 流量，闭源只有 30.9%。多位业内人士（Clement Delangue、garrytan）认为模型路由将成为未来重要抽象层，但也有人指出企业生产环境下通用路由仍有难度。
> 相关链接：数据推文｜讨论｜反对观点

Agent 与工具链

GitHub Copilot 发布桌面 App，主打 agent 原生开发

GitHub 在 Build 上推出 Copilot 桌面应用，提供画布、跨设备连续性（CLI/移动/Web/本地/云），Copilot CLI 增加了终端 UI、语音输入、任务调度。微软强调 Copilot 将成为 agent 原生软件开发的家。
> 相关链接：产品发布｜CLI 更新｜行业反应

微软推出 Web IQ：面向 AI Agent 的搜索与 grounding API

微软发布 Web IQ，一套为 AI agent 设计的 grounding API，支持网页、新闻、图片、视频。架构从 Bing 重构，强调质量、低延迟和 token 效率。宣称已支撑 Copilot、ChatGPT 等绝大多数 AI 聊天和 agent。
> 相关链接：官方介绍

Windows 成为 Agent 运行时：Project Solara/Scout 概念硬件亮相

微软在 Build 上强调 Windows 作为 agent 的安全执行层。发布 Project Solara（agent 优先设备概念，含桌面伴侣和可穿戴徽章）和 Scout（全天候个人 agent）。同时推出 Surface RTX Spark Dev Box，可本地运行 120B 参数模型。
> 相关链接：Yusuf Mehdi 推文｜TheTuringPost 分析｜硬件细节

Anthropic 推出 Claude 平台 CLI 并升级 /fork 功能

Anthropic 发布了 Claude Platform 的命令行工具，并升级了 Claude Code 的 /fork 命令，可在后台运行 agent，准确传递上下文和使用 prompt cache，提升了开发者的 agent 编程体验。
> 相关链接：CLI 发布｜/fork 更新

Harvey + LangChain 展示低成本验证器：成本降低 1000 倍

Harvey 和 LangChain 合作，用 DeepSeek V4 Flash 作为验证器，在合法 agent 任务中保持 94-96% 的 Agree 率，成本从 18000 美元降至 18 美元（批量模式）。可大幅降低 RL 训练中的验证开销。
> 相关链接：Harvey 推文｜LangChain 推文｜详细数据

W&B 发布 Weave 2.0：Agent 优先的可观测性工具

W&B 重新发布 Weave，聚焦 agent 观测，集成常见 agent 框架，自动检测失败模式（如循环、拒绝）。帮助开发者调试和优化 agent 行为，降低生产事故。
> 相关链接：W&B 推文｜详细说明

基础设施与硬件

微软 MAIA 200 芯片：MAI 模型跑得更好更省电

微软介绍自研芯片 MAIA 200，运行 MAI 模型时性能/美元比 GB200 高 30%，性能/瓦特高 1.4 倍。Training 使用了 8192 张 GB200，但后续推理将优先用自研芯片，强调硬件与模型协同设计。
> 相关链接：Mustafa 推文｜技术细节

Together 优化 MiniMax-M3：吞吐提升 81-125%

Together 发布 MiniMax-M3 服务优化，通过稀疏注意力（KV-block-major）、分页解码等改进，实现吞吐量提升 81-125%。MiniMax 自身也强调 MSA 机制将注意力解码时间占比从 30% 降至 5%。
> 相关链接：Together 推文｜MiniMax 介绍

Prime-RL 集成 Mooncake Store，实现跨节点 KV 缓存复用

Prime-RL 将 Mooncake Store 与 vLLM 整合，支持跨节点的前缀/KV 缓存共享，大幅降低 agent 滚动推理的重复计算开销，对 RL 推理场景尤其有价值。
> 相关链接：推文

Westmag 融资 1100 万美元，制造美国机器人驱动器

Westmag 走出隐身模式，旨在制造美国本土的机器人执行器和无人机电机，由 a16z 领投，Founders Fund、Lux 等参投。代表硬件供应链回归趋势。
> 相关链接：融资消息｜Packy 评论

研究与方法

MAI-Thinking-1 技术报告获好评：109 页，透明度极高

微软公开 109 页技术报告，披露无合成数据、无蒸馏的训练管线，数据源自 Common Crawl + 私有来源，使用 DSPy/GEPA 优化评分器。RL 从零推理能力起步（AIME 从 20% 冲到 95%）。研究者称其为”新时代教科书式报告”。
> 相关链接：报告链接｜Eli Bakouch 解读｜Nrehiew 评论

Google DeepMind 发布 Co-Scientist：多 Agent 科研助手

DeepMind 推出基于 Gemini 的多 agent 系统 Co-Scientist，用于自动生成科学假设。已在肝纤维化靶点、ALS 疗法、衰老基因等方面提供有意义的合作结果，展示 agent 在科研场景的潜力。
> 相关链接：官方推文｜功能介绍

Tilde Research 提出 Wall Attention：无 RoPE，外推至 200K+

Tilde Research 发布 Wall Attention，一种不使用 RoPE 的注意力方法，通过对角遗忘门实现。在 4K 长度训练后可外推到 200K+ 令牌，并提供 Triton 内核，解码吞吐表现强劲。
> 相关链接：论文推文

多个新基准发布：图像编辑、视频跟踪、数据 Agent

PaintBench 评估精确图像编辑，当前最好模型仅 17.1%。VSTAT 测试视频状态跟踪，前沿多模态模型仍表现差。Data Agent Benchmark 关注企业数据工作流。这些基准暴露了现有模型的短板。
> 相关链接：PaintBench｜VSTAT｜Data Agent

产品与应用落地

OpenAI 推出 Sites in Codex：将想法一键变成内部网站

OpenAI 在 Codex 中新增 Sites 功能，让团队把文档、计划直接部署为可用的内部网站/应用，带认证和动态数据。先面向企业和商业用户，简化内部工具开发流程。
> 相关链接：OpenAI 推文｜GDB 演示

Perplexity 发布混合推理模式：本地模型 + 云端模型协同

Perplexity Computer 推出混合 agent 推理，将敏感任务用本地模型处理，复杂推理交给前沿云模型，兼顾隐私和性能。标志着本地+云混合成为 agent 产品的新趋势。
> 相关链接：官方推文｜Arav Srinivas 推文

Martin Scorsese 用 FLUX 做分镜：AI 辅助电影创作

Martin Scorsese 公开演示使用 Black Forest Labs 的 FLUX 模型进行故事板生成，强调仍以手绘为主，AI 为辅。这是知名导演首次展示 AI 在电影前期制作中的实际应用。
> 相关链接：Rob Rombach 推文｜TheRundownAI 总结

Nous 发布 Hermes Desktop：本地 agent 桌面端

Nous Research 推出 Hermes Desktop，为 Hermes agent 提供本地原生桌面界面，支持 Tailscale/Ollama 集成，让用户本地运行 agent，无需依赖云端。
> 相关链接：Nous 推文｜Tailscale 集成

Cognition 发布 Devin Desktop：agent 中立桌面管理

Cognition 推出 Devin Desktop，一个 agent 中立的桌面平台，可管理本地和云端 agent，支持本地规划与云端执行的切换，进一步推动 agent 工作流的桌面化。
> 相关链接：Cognition 推文｜Scott Wu 推文

行业与公司动态

微软 Build 大会：从云到端的全栈 AI 平台押注

Satya Nadella 与 Mustafa Suleyman 将 Build 定位为生态转型，不再只做云和 API，而是模型、芯片、OS、应用全面自研。强调”人文主义超级智能”，并预测 AI 算力三年增长 1000 倍。
> 相关链接：Satya 采访｜Mustafa 推文｜算力预测

PyTorch 宣布 NVIDIA 采用 OpenMDW-1.1 开源模型许可框架

PyTorch 表示 NVIDIA 已在四个开源模型家族中采用 OpenMDW-1.1 许可框架，这是一种宽松的 AI 模型许可协议，有望推动行业标准化。
> 相关链接：PyTorch 推文

“Mythos FLOPs 泄露”乌龙：微软幻灯片引算力猜测

Build 上某幻灯片被解读为泄露 Anthropic Claude Mythos 的训练算力，引发数小时讨论。后经多方分析，该数字被证实为不准确估计，相关猜测已撤回。
> 相关链接：最初猜测｜修正