AI 新闻摘要 2026-05-27 - 酷加的博客

基础设施与硬件——AI Infra 十亿美元俱乐部再添新成员

Fireworks 以 150 亿美元估值融资，Baseten 以 110 亿美元估值融资

AI Infra 领域的”十亿美元估值”俱乐部正在加速扩张。Fireworks 正在以约 150 亿美元估值进行融资（7 个月内估值增长 3.75 倍），Baseten 以约 110 亿美元估值进行融资（3 个月内估值增长 2.2 倍）。OpenRouter 也完成了 1.13 亿美元的 C 轮融资，6 个月内流量增长 5 倍（从 5T 到 25T 周 tokens）。这些信号清晰地表明：多模型推理基础设施已成为一个坚固的平台层，而如果你要做多模型推理，你一定需要一个路由层。 > 相关链接：Fireworks 融资报道｜Baseten 融资报道｜OpenRouter C 轮

华为 τ Scaling 论文：被解读为”工程路线图”而非新定律

华为发布的”A Time Scaling Theory for Multi-Layer Electronic Systems”被业内详细解读，核心提议是将时间常数 τ（而非制程节点）作为设备/芯片/数据中心层面的统一度量指标。最具体的声明涉及未来 Kirin 设计中的 LogicFolding：在相同制程下实现 +55% 密度、+41% 能效、+13% 频率。但文章也坦诚地指出缺乏验证证据（芯片照片、SEM、工作负载细节），这些数字”有前景但未经证实”。业内共识是华为的路径更依赖封装和架构创新，而非光刻追赶上。 > 相关链接：τ Scaling 论文解读｜Jensen 关于非制程创新的观点

数据中心电力和推理供应约束成为首要关切

SemiAnalysis 发表了关于 800VDC 直流输电转型的分析，John Carmack 也推荐了该方案，强调了电动汽车电力电子技术如何跨界进入数据中心设计（包括高压 SiC 组件）。与此同时，Epoch AI 估算出一个”推理算力紧缩”的可能局面：需求的增长速度正在超过服务能力的扩张，尤其对于长上下文工作负载。他们的模型显示，在有利假设下当前的 Blackwell 全球供应尚可满足需求，但长上下文场景下吞吐量急剧下降，而需求增长可能已经超过供应扩张速度。 > 相关链接：800VDC 转型分析｜Epoch AI 推理紧缩估算

vLLM 合并 Rust 前端，吞吐量提升超 5 倍

vLLM 合并了一个 Rust 前端，作为 Python API 服务器的替代方案。早期数据在预处理密集型工作负载上显示：单进程下 Rust 前端约 837 req/s，Python 前端约 162 req/s。这对在高吞吐服务中遇到 CPU/API 服务器瓶颈的开发者意义重大。 > 相关链接：vLLM Rust 前端公告

模型与能力

Qwen 3.7 Max 发布：在多个基准上接近 Claude 级别

Qwen 3.7 Max 在 agentic coding、软件工程、MCP/工具使用、推理和知识评估等多个维度与 Qwen3.6-Plus、DS-V4-Pro Max、GLM-5.1、Kimi K2.6 以及 Claude Opus-4.6 Max 进行了对比。结果显示 Qwen3.7-Max 在多项基准上与 Claude 级模型高度竞争甚至领先，但 Claude Opus-4.6 Max 仍在 ClawEval 和 CoWorkBench 等任务上领先。社区讨论集中在：Max 系列通常不开源权重，任何开源版本的 Qwen 3.7 的架构和规模可能与旗舰版完全不同。 > 相关链接：Qwen3.7 博客｜社区讨论

Qwen3.6 35B A3B 本地推理优化：12GB VRAM 达到 110 tok/s

社区在本地推理优化方面取得显著进展。有用户使用 byteshape 的 IQ4_XS 4.19 bpw GGUF 量化版 Qwen3.6-35B-A3B-MTP，在 RTX 4070 Super 12GB 上通过 ik_llama.cpp 达到 110.24 tok/s（对比上游 llama.cpp 的 89.76 tok/s，提升 23%）。还有用户通过 Unsloth Studio 在 MS-02 + 24GB RTX Pro 4000 上持续获得 >100 tok/s。关于 VRAM 优化，有用户分享了通过软件渲染 Plasma Wayland 将空闲 VRAM 从 >1024MB 降至 ~126MB 的方法。 > 相关链接：110 tok/s 基准测试｜Unsloth Studio 体验

MiniMax M3 注意力架构开源

MiniMax 预告将开源 M3 模型，技术评论认为这引入了一种新的块稀疏两阶段注意力路径。报告的速度提升数据：在 1M token 下，预填充速度提升 9.7 倍，解码速度提升 15.6 倍（对比 M2）。@eliebakouch 补充指出，M3 似乎回归到基于 GQA 的稀疏注意力，使用真实 KV 的块选择机制，这与 DeepSeek 的压缩注意力变体有所不同。 > 相关链接：M3 速度数据｜M3 技术分析

微软 MAI-Image-2.5 进入图像生成前三

微软的 MAI-Image-2.5 在 Image Arena 上以 1254 分排名第三，打破了此前由 OpenAI 和 Google 主导的前五格局。另外，PrismML 发布了 Bonsai Image 4B，包括 1-bit 和 ternary 变体，可在笔记本电脑和手机上本地运行，内存占用约 3GB，甚至可在浏览器中执行。 > 相关链接：MAI-Image-2.5｜Bonsai Image 4B

Gemini 3.5 Flash 性能强劲但价格飙升

Artificial Analysis 测量发现 Gemini 3.5 Flash 可达到约 280 output tok/s，agentic 表现明显更强，但价格约为 Gemini 3 Flash 的 5 倍。这体现了”更强但更贵”之间的权衡。

Agent 与工具链

Harness 工程成为编码 agent 的关键差异化因素

本周多个帖子汇聚焦于同一个论点：制胜的堆栈已是”模型 + harness + 评估循环”，而不仅仅是更强的基座模型。DeepSeek 被曝正在组建专门的 harness 团队，以闭合模型输出、运行时反馈、验证和纠正之间的循环。Google 的 Gemini Managed Agents 指南将 agent 基础设施描述为”一个 API 调用即可获得托管 harness”，包含沙箱、持久化和挂载。LangChain 更新了 create_agent 文档，dair.ai 也发表了关于”harness”的论文总结。 > 相关链接：DeepSeek harness 团队｜Gemini Managed Agents 指南｜dair.ai 总结

DeepSWE 基准发布：首个”与实际编码体验一致”的代码基准

DeepSWE 作为 agentic coding 的新基准获得了开发者的强烈认可。@theo 称其为”第一个真正与实际使用这些模型编码的感受一致的代码基准”。它在高端模型间的区分度也比公开的 SWE 排行榜更大。Qwen3.7 Max 在 Code Arena: Frontend 排名第四，大致与 Claude Opus 4.6 在 agentic 网页开发任务上表现相当。 > 相关链接：DeepSWE 发布

Anthropic 发布 Claude Code 安全插件

Anthropic 为 Claude Code 发布了一个安全指导插件，内部使用数据显示安全相关的 PR 评论减少了 30-40%。OpenAI 则强调了 GPT-5.5 在 Codex 中的表现，特别是在 Databricks 场景下更可靠的文档解析能力。 > 相关链接：Claude Code 安全插件

研究 agent 展示数学能力”溢出”效应

一位数学家报告 Claude Mythos 成功解决了 Erdős 问题 #90，且模型往往收敛到与 OpenAI 早期不同且更简洁的证明路径。Sébastien Bubeck 进一步指出：在合适的 harness 下，Mythos 和 GPT-5.5 都能复现此前内部模型一次完成的功能。这意味着 vanilla 聊天界面并未暴露的大量潜在能力。 > 相关链接：Erdős 问题 #90 被解决｜Bubeck 的分析

论文 “Language Models Need Sleep” 引发关注

该论文提出的”睡眠式”整合阶段引起了广泛注意：机制是在清除 KV 缓存前将近期上下文转换为持久化的快速权重，将计算移动到离线阶段，同时保持”清醒”时的低延迟。dair.ai 从系统角度强调：这是对有长轨迹的 agent 来说，不断增长的 KV 缓存的一种替代方案。这与 agent 记忆系统的持续讨论紧密相连。 > 相关链接：睡眠论文｜dair.ai 总结

QUEST：开源深度研究 agent 发布

QUEST 模型家族（2B-35B）作为通用深度研究 agent 发布，专为长时程事实搜索、引用溯源和报告合成而设计。在科学评估方面，Sakana/Stanford/Oxford/AI2 的 CUSP 基准发现：当前模型通常能识别有前景的研究方向，但在判断突破何时以及是否会实际实现方面仍有困难。 > 相关链接：QUEST 发布｜CUSP 基准

产品与应用落地

Codex 实操：逆向工程 MP3 播放器固件

本周最高信号量的产品使用贴是 @bunkaich 展示的 Codex 如何帮助逆向工程和修补廉价 MP3 播放器的固件。工作流程涵盖了芯片检查、操作系统提取、二进制分析以及刷写修改后的镜像。

Qwen3.6 35B 本地 Agent 工作流改变工作方式

一位用户分享了使用 Qwen3.6 35B 通过 pi 构建本地 agent 工作流的经验：将重复性流程转化为由 Codex 生成/文档化的”技能”，用于 VPS DevOps、PDF→EPUB 转换、Playwright 测试、代码任务和 OS 级 shell 任务。具体例子：WhatsApp 音频→转录→content.md→本地生成的落地页，然后通过 plan.md 任务队列由”管理者”pi 进程调度执行。 > 相关链接：Qwen3.6 工作流分享

Cloudflare 重推初创计划，OpenRouter 强调生产级可靠性

Cloudflare 重新启动了其初创公司计划，提供高达 35 万美元的积分。围绕 Think 和 agent 人体工学的讨论强调了持久连接、重连、陈旧状态处理和恢复能力作为关键的实际差异化因素。在检索基础设施方面，Booking.com 分享了扩展到 100M+ 嵌入的经验，包括过滤向量搜索、读写并发以及合作伙伴消息 agent 的人工评估流程。 > 相关链接：Cloudflare 初创计划｜Booking.com 嵌入扩展

W&B MCP 服务器：让编码 agent 能检查实验和训练运行

W&B 推出了一个 MCP 服务器，允许编码 agent 检查和查看实验及训练运行。该设计采用了以 schema 为首的重构，旨在避免上下文窗口膨胀问题。同时，Unsloth 增加了在其本地 UI 中运行 GPT、Claude 及其他 API 的支持，包括 prompt caching 和代码执行。

研究与方法

AMUSE：新型 Muon 优化器变体

AMUSE（Anytime MUon with Stable gradient Evaluation）将 Muon 与无调度梯度评估结合，实现无需 LR 衰减的稳定 anytime 训练。在 124M/720M/1B 规模及 ViT/ImageNet 微调上报告了增益。相关的实现讨论还包括 SFMuon 片段和 Modded-NanoGPT 上的 Newton-Muon 结果。 > 相关链接：AMUSE 论文

行业与公司动态

本周热门推文精选

Codex 逆向工程：@bunkaich 展示 Codex 修补廉价 MP3 固件
DeepSWE 基准发布：@serenaa_ge 的发布成为”是否匹配真实编码体验”讨论的主要参考点
Claude Code 安全插件：@ClaudeDevs 的发布附带内部指标：安全 PR 评论减少 30-40%
OpenRouter 融资：@OpenRouter 的 1.13 亿美元 B 轮融资和 25T tokens 增长
vLLM Rust 前端：@vllm_project 的合并公告，解决高吞吐 CPU/API 服务瓶颈