AI 新闻摘要 2026-04-07

模型与能力

Gemma 4 首周下载破 200 万，端侧表现亮眼

Gemma 4 发布一周下载量达 200 万，登 HF 榜首。iPhone 17 Pro 上 MLX 推理可达 40 tok/s，Ollama Cloud 和 Red Hat 也迅速跟进支持。相比 Gemma 3 全年 670 万，这次起步势头很猛，本地部署成了新热点。
> 相关链接：下载数据｜端侧演示

Qwen 3.5 累计下载超 2700 万

作为对比，Qwen 3.5 自旗舰模型发布以来，1 个半月内累计下载量已达 2700 万。开源模型之间的下载量竞争加剧，头部效应明显。
> 相关链接：对比数据

小模型在特定任务上反超大 API

130 万参数的 SauerkrautLM 在 VizDoom 任务上优于大模型，CPU 仅需 31ms。Falcon Perception 0.6B 分割模型在 Mac 上表现优于 SAM 3。专用模型 + 系统优化开始胜过通用缩放。
> 相关链接：SauerkrautLM｜Falcon Perception

Agent 与工具链

Hermes Agent 靠自我改进 loop 火出圈

Nous 的 Hermes Agent 因持久记忆和自生成技能受到关注，能直接生成动画而非仅 PDF。相比 OpenClaw，它更少手动配置，社区工具链（如 HUD、WebUI）跟进很快，开源代理方案热度上升。
> 相关链接：Hermes 介绍｜对比分析

开源社区推动代理数据共享

开发者发布工具将 coding agent 会话转为 HF 数据集，含隐私保护。社区认为开放前沿代理缺的就是真实轨迹数据，应 crowdsourcing 而非依赖干净沙盒。
> 相关链接：pi-share-hf｜社区讨论

研究与方法

RL 训练效率出新招：异步与 FIPO

阿里 Qwen 提出 FIPO 优化策略，AIME 成绩提升至 56-58%。OLMo 3 转向异步 RL，吞吐量翻 4 倍。研究重点转向长程推理和训练效率，不再只刷静态榜单。
> 相关链接：FIPO 论文｜OLMo 3

代理评测基准转向工作流

XpertBench 和目标数据代理基准出现，不再只测考试题，而是测多步查询和异构数据库工作流。评测设计开始追赶生产级代理 builder 的关注点。
> 相关链接：XpertBench｜Data Agent

政策、治理与安全

OpenAI 提议“智能时代产业政策”

OpenAI 联合盟友提出新政策框架，包括公共财富基金、32 小时工作周试点和 AI 使用权。意在将超级智能视为紧迫政策问题，而非遥远假设，社区反应不一。
> 相关链接：政策框架｜安全奖学金

纽约客深挖 OpenAI 治理丑闻

新调查重提 2023 年开除/复职事件，指控内部欺骗和董事会操纵，安全团队资源不足。Altman 与 CFO 在支出和 IPO 准备上也有 tension，治理信任度受考验。
> 相关链接：调查报道｜社区总结

行业与公司动态

Anthropic 年营收跑通 300 亿美元

Anthropic 宣布与 Google/博通合作，2027 年起获多吉瓦 TPU 产能。公司年营收已达 300 亿美元（2025 年底为 90 亿），但训练推理成本依然巨大，资本结构成瓶颈。
> 相关链接：TPU 合作｜营收数据

产品与应用落地

Claude 订阅制遭质疑，本地模型成替代

用户抱怨 Claude 订阅 gating 和宕机问题，$20/$200 模式不适合 24/7 代理工作流。工程师开始转向本地开源模型，认为差距已缩小到可替代部分付费服务。
> 相关链接：订阅吐槽｜宕机报告

基础设施与硬件

Blackwell 显卡解码速度提升 84%

Cursor 报告在 Blackwell GPU 上 MoE 生成速度提升 1.84 倍。Muon 优化器即将适配消费级黑威尔卡。MLX 也支持了蛋白质建模，本地生物 LLM 实验门槛降低。
> 相关链接：Cursor 报告｜Muon 优化

本地工具链生态持续完善

Unsloth 免费笔记本现在可训练/运行 500+ 模型。HF 发布 Ultra-Scale Playbook 统一并行策略。LLM 架构画廊新增 RSS feed，跟进模型设计更方便。
> 相关链接：Unsloth｜HF Playbook