AI 新闻摘要 2026-05-27

发布于 2026年05月27日

基础设施与硬件——AI Infra 十亿美元俱乐部再添新成员

Fireworks 以 150 亿美元估值融资,Baseten 以 110 亿美元估值融资

AI Infra 领域的”十亿美元估值”俱乐部正在加速扩张。Fireworks 正在以约 150 亿美元估值进行融资(7 个月内估值增长 3.75 倍),Baseten 以约 110 亿美元估值进行融资(3 个月内估值增长 2.2 倍)。OpenRouter 也完成了 1.13 亿美元的 C 轮融资,6 个月内流量增长 5 倍(从 5T 到 25T 周 tokens)。这些信号清晰地表明:多模型推理基础设施已成为一个坚固的平台层,而如果你要做多模型推理,你一定需要一个路由层。 > 相关链接:Fireworks 融资报道Baseten 融资报道OpenRouter C 轮

华为 τ Scaling 论文:被解读为”工程路线图”而非新定律

华为发布的”A Time Scaling Theory for Multi-Layer Electronic Systems”被业内详细解读,核心提议是将时间常数 τ(而非制程节点)作为设备/芯片/数据中心层面的统一度量指标。最具体的声明涉及未来 Kirin 设计中的 LogicFolding:在相同制程下实现 +55% 密度、+41% 能效、+13% 频率。但文章也坦诚地指出缺乏验证证据(芯片照片、SEM、工作负载细节),这些数字”有前景但未经证实”。业内共识是华为的路径更依赖封装和架构创新,而非光刻追赶上。 > 相关链接:τ Scaling 论文解读Jensen 关于非制程创新的观点

数据中心电力和推理供应约束成为首要关切

SemiAnalysis 发表了关于 800VDC 直流输电转型的分析,John Carmack 也推荐了该方案,强调了电动汽车电力电子技术如何跨界进入数据中心设计(包括高压 SiC 组件)。与此同时,Epoch AI 估算出一个”推理算力紧缩”的可能局面:需求的增长速度正在超过服务能力的扩张,尤其对于长上下文工作负载。他们的模型显示,在有利假设下当前的 Blackwell 全球供应尚可满足需求,但长上下文场景下吞吐量急剧下降,而需求增长可能已经超过供应扩张速度。 > 相关链接:800VDC 转型分析Epoch AI 推理紧缩估算

vLLM 合并 Rust 前端,吞吐量提升超 5 倍

vLLM 合并了一个 Rust 前端,作为 Python API 服务器的替代方案。早期数据在预处理密集型工作负载上显示:单进程下 Rust 前端约 837 req/s,Python 前端约 162 req/s。这对在高吞吐服务中遇到 CPU/API 服务器瓶颈的开发者意义重大。 > 相关链接:vLLM Rust 前端公告


模型与能力

Qwen 3.7 Max 发布:在多个基准上接近 Claude 级别

Qwen 3.7 Max 在 agentic coding、软件工程、MCP/工具使用、推理和知识评估等多个维度与 Qwen3.6-Plus、DS-V4-Pro Max、GLM-5.1、Kimi K2.6 以及 Claude Opus-4.6 Max 进行了对比。结果显示 Qwen3.7-Max 在多项基准上与 Claude 级模型高度竞争甚至领先,但 Claude Opus-4.6 Max 仍在 ClawEval 和 CoWorkBench 等任务上领先。社区讨论集中在:Max 系列通常不开源权重,任何开源版本的 Qwen 3.7 的架构和规模可能与旗舰版完全不同。 > 相关链接:Qwen3.7 博客社区讨论

Qwen3.6 35B A3B 本地推理优化:12GB VRAM 达到 110 tok/s

社区在本地推理优化方面取得显著进展。有用户使用 byteshape 的 IQ4_XS 4.19 bpw GGUF 量化版 Qwen3.6-35B-A3B-MTP,在 RTX 4070 Super 12GB 上通过 ik_llama.cpp 达到 110.24 tok/s(对比上游 llama.cpp 的 89.76 tok/s,提升 23%)。还有用户通过 Unsloth Studio 在 MS-02 + 24GB RTX Pro 4000 上持续获得 >100 tok/s。关于 VRAM 优化,有用户分享了通过软件渲染 Plasma Wayland 将空闲 VRAM 从 >1024MB 降至 ~126MB 的方法。 > 相关链接:110 tok/s 基准测试Unsloth Studio 体验

MiniMax M3 注意力架构开源

MiniMax 预告将开源 M3 模型,技术评论认为这引入了一种新的块稀疏两阶段注意力路径。报告的速度提升数据:在 1M token 下,预填充速度提升 9.7 倍,解码速度提升 15.6 倍(对比 M2)。@eliebakouch 补充指出,M3 似乎回归到基于 GQA 的稀疏注意力,使用真实 KV 的块选择机制,这与 DeepSeek 的压缩注意力变体有所不同。 > 相关链接:M3 速度数据M3 技术分析

微软 MAI-Image-2.5 进入图像生成前三

微软的 MAI-Image-2.5 在 Image Arena 上以 1254 分排名第三,打破了此前由 OpenAI 和 Google 主导的前五格局。另外,PrismML 发布了 Bonsai Image 4B,包括 1-bit 和 ternary 变体,可在笔记本电脑和手机上本地运行,内存占用约 3GB,甚至可在浏览器中执行。 > 相关链接:MAI-Image-2.5Bonsai Image 4B

Gemini 3.5 Flash 性能强劲但价格飙升

Artificial Analysis 测量发现 Gemini 3.5 Flash 可达到约 280 output tok/s,agentic 表现明显更强,但价格约为 Gemini 3 Flash 的 5 倍。这体现了”更强但更贵”之间的权衡。


Agent 与工具链

Harness 工程成为编码 agent 的关键差异化因素

本周多个帖子汇聚焦于同一个论点:制胜的堆栈已是”模型 + harness + 评估循环”,而不仅仅是更强的基座模型。DeepSeek 被曝正在组建专门的 harness 团队,以闭合模型输出、运行时反馈、验证和纠正之间的循环。Google 的 Gemini Managed Agents 指南将 agent 基础设施描述为”一个 API 调用即可获得托管 harness”,包含沙箱、持久化和挂载。LangChain 更新了 create_agent 文档,dair.ai 也发表了关于”harness”的论文总结。 > 相关链接:DeepSeek harness 团队Gemini Managed Agents 指南dair.ai 总结

DeepSWE 基准发布:首个”与实际编码体验一致”的代码基准

DeepSWE 作为 agentic coding 的新基准获得了开发者的强烈认可。@theo 称其为”第一个真正与实际使用这些模型编码的感受一致的代码基准”。它在高端模型间的区分度也比公开的 SWE 排行榜更大。Qwen3.7 Max 在 Code Arena: Frontend 排名第四,大致与 Claude Opus 4.6 在 agentic 网页开发任务上表现相当。 > 相关链接:DeepSWE 发布

Anthropic 发布 Claude Code 安全插件

Anthropic 为 Claude Code 发布了一个安全指导插件,内部使用数据显示安全相关的 PR 评论减少了 30-40%。OpenAI 则强调了 GPT-5.5 在 Codex 中的表现,特别是在 Databricks 场景下更可靠的文档解析能力。 > 相关链接:Claude Code 安全插件

研究 agent 展示数学能力”溢出”效应

一位数学家报告 Claude Mythos 成功解决了 Erdős 问题 #90,且模型往往收敛到与 OpenAI 早期不同且更简洁的证明路径。Sébastien Bubeck 进一步指出:在合适的 harness 下,Mythos 和 GPT-5.5 都能复现此前内部模型一次完成的功能。这意味着 vanilla 聊天界面并未暴露的大量潜在能力。 > 相关链接:Erdős 问题 #90 被解决Bubeck 的分析

论文 “Language Models Need Sleep” 引发关注

该论文提出的”睡眠式”整合阶段引起了广泛注意:机制是在清除 KV 缓存前将近期上下文转换为持久化的快速权重,将计算移动到离线阶段,同时保持”清醒”时的低延迟。dair.ai 从系统角度强调:这是对有长轨迹的 agent 来说,不断增长的 KV 缓存的一种替代方案。这与 agent 记忆系统的持续讨论紧密相连。 > 相关链接:睡眠论文dair.ai 总结

QUEST:开源深度研究 agent 发布

QUEST 模型家族(2B-35B)作为通用深度研究 agent 发布,专为长时程事实搜索、引用溯源和报告合成而设计。在科学评估方面,Sakana/Stanford/Oxford/AI2 的 CUSP 基准发现:当前模型通常能识别有前景的研究方向,但在判断突破何时以及是否会实际实现方面仍有困难。 > 相关链接:QUEST 发布CUSP 基准


产品与应用落地

Codex 实操:逆向工程 MP3 播放器固件

本周最高信号量的产品使用贴是 @bunkaich 展示的 Codex 如何帮助逆向工程和修补廉价 MP3 播放器的固件。工作流程涵盖了芯片检查、操作系统提取、二进制分析以及刷写修改后的镜像。

Qwen3.6 35B 本地 Agent 工作流改变工作方式

一位用户分享了使用 Qwen3.6 35B 通过 pi 构建本地 agent 工作流的经验:将重复性流程转化为由 Codex 生成/文档化的”技能”,用于 VPS DevOps、PDF→EPUB 转换、Playwright 测试、代码任务和 OS 级 shell 任务。具体例子:WhatsApp 音频→转录→content.md→本地生成的落地页,然后通过 plan.md 任务队列由”管理者”pi 进程调度执行。 > 相关链接:Qwen3.6 工作流分享

Cloudflare 重推初创计划,OpenRouter 强调生产级可靠性

Cloudflare 重新启动了其初创公司计划,提供高达 35 万美元的积分。围绕 Think 和 agent 人体工学的讨论强调了持久连接、重连、陈旧状态处理和恢复能力作为关键的实际差异化因素。在检索基础设施方面,Booking.com 分享了扩展到 100M+ 嵌入的经验,包括过滤向量搜索、读写并发以及合作伙伴消息 agent 的人工评估流程。 > 相关链接:Cloudflare 初创计划Booking.com 嵌入扩展

W&B MCP 服务器:让编码 agent 能检查实验和训练运行

W&B 推出了一个 MCP 服务器,允许编码 agent 检查和查看实验及训练运行。该设计采用了以 schema 为首的重构,旨在避免上下文窗口膨胀问题。同时,Unsloth 增加了在其本地 UI 中运行 GPT、Claude 及其他 API 的支持,包括 prompt caching 和代码执行。


研究与方法

AMUSE:新型 Muon 优化器变体

AMUSE(Anytime MUon with Stable gradient Evaluation)将 Muon 与无调度梯度评估结合,实现无需 LR 衰减的稳定 anytime 训练。在 124M/720M/1B 规模及 ViT/ImageNet 微调上报告了增益。相关的实现讨论还包括 SFMuon 片段和 Modded-NanoGPT 上的 Newton-Muon 结果。 > 相关链接:AMUSE 论文


行业与公司动态

本周热门推文精选
  • Codex 逆向工程@bunkaich 展示 Codex 修补廉价 MP3 固件
  • DeepSWE 基准发布@serenaa_ge 的发布成为”是否匹配真实编码体验”讨论的主要参考点
  • Claude Code 安全插件@ClaudeDevs 的发布附带内部指标:安全 PR 评论减少 30-40%
  • OpenRouter 融资@OpenRouter 的 1.13 亿美元 B 轮融资和 25T tokens 增长
  • vLLM Rust 前端@vllm_project 的合并公告,解决高吞吐 CPU/API 服务瓶颈



评论