模型与能力
Gemma 4 首周下载破 200 万,端侧表现亮眼
Gemma 4 发布一周下载量达 200 万,登 HF 榜首。iPhone 17 Pro 上 MLX 推理可达 40 tok/s,Ollama Cloud 和 Red Hat 也迅速跟进支持。相比 Gemma 3 全年 670 万,这次起步势头很猛,本地部署成了新热点。
> 相关链接:下载数据|端侧演示
Qwen 3.5 累计下载超 2700 万
作为对比,Qwen 3.5 自旗舰模型发布以来,1 个半月内累计下载量已达 2700 万。开源模型之间的下载量竞争加剧,头部效应明显。
> 相关链接:对比数据
小模型在特定任务上反超大 API
130 万参数的 SauerkrautLM 在 VizDoom 任务上优于大模型,CPU 仅需 31ms。Falcon Perception 0.6B 分割模型在 Mac 上表现优于 SAM 3。专用模型 + 系统优化开始胜过通用缩放。
> 相关链接:SauerkrautLM|Falcon Perception
Agent 与工具链
Hermes Agent 靠自我改进 loop 火出圈
Nous 的 Hermes Agent 因持久记忆和自生成技能受到关注,能直接生成动画而非仅 PDF。相比 OpenClaw,它更少手动配置,社区工具链(如 HUD、WebUI)跟进很快,开源代理方案热度上升。
> 相关链接:Hermes 介绍|对比分析
开源社区推动代理数据共享
开发者发布工具将 coding agent 会话转为 HF 数据集,含隐私保护。社区认为开放前沿代理缺的就是真实轨迹数据,应 crowdsourcing 而非依赖干净沙盒。
> 相关链接:pi-share-hf|社区讨论
研究与方法
RL 训练效率出新招:异步与 FIPO
阿里 Qwen 提出 FIPO 优化策略,AIME 成绩提升至 56-58%。OLMo 3 转向异步 RL,吞吐量翻 4 倍。研究重点转向长程推理和训练效率,不再只刷静态榜单。
> 相关链接:FIPO 论文|OLMo 3
代理评测基准转向工作流
XpertBench 和目标数据代理基准出现,不再只测考试题,而是测多步查询和异构数据库工作流。评测设计开始追赶生产级代理 builder 的关注点。
> 相关链接:XpertBench|Data Agent
政策、治理与安全
OpenAI 提议“智能时代产业政策”
OpenAI 联合盟友提出新政策框架,包括公共财富基金、32 小时工作周试点和 AI 使用权。意在将超级智能视为紧迫政策问题,而非遥远假设,社区反应不一。
> 相关链接:政策框架|安全奖学金
纽约客深挖 OpenAI 治理丑闻
新调查重提 2023 年开除/复职事件,指控内部欺骗和董事会操纵,安全团队资源不足。Altman 与 CFO 在支出和 IPO 准备上也有 tension,治理信任度受考验。
> 相关链接:调查报道|社区总结
行业与公司动态
Anthropic 年营收跑通 300 亿美元
Anthropic 宣布与 Google/博通合作,2027 年起获多吉瓦 TPU 产能。公司年营收已达 300 亿美元(2025 年底为 90 亿),但训练推理成本依然巨大,资本结构成瓶颈。
> 相关链接:TPU 合作|营收数据
产品与应用落地
Claude 订阅制遭质疑,本地模型成替代
用户抱怨 Claude 订阅 gating 和宕机问题,$20/$200 模式不适合 24/7 代理工作流。工程师开始转向本地开源模型,认为差距已缩小到可替代部分付费服务。
> 相关链接:订阅吐槽|宕机报告
基础设施与硬件
Blackwell 显卡解码速度提升 84%
Cursor 报告在 Blackwell GPU 上 MoE 生成速度提升 1.84 倍。Muon 优化器即将适配消费级黑威尔卡。MLX 也支持了蛋白质建模,本地生物 LLM 实验门槛降低。
> 相关链接:Cursor 报告|Muon 优化
本地工具链生态持续完善
Unsloth 免费笔记本现在可训练/运行 500+ 模型。HF 发布 Ultra-Scale Playbook 统一并行策略。LLM 架构画廊新增 RSS feed,跟进模型设计更方便。
> 相关链接:Unsloth|HF Playbook