模型与能力
GLM-5.1 代码能力跃升至第一梯队
GLM-5.1 在 Code Arena 冲上前 3,接近 Claude Sonnet 4.6,超过 Gemini 3.1 和 GPT-5.4 的部分表现。Z.ai 在开源模型里势头很强,Windsurf 等工具也开始快速接入。
Agent 与工具链
便宜执行,昂贵顾问,成主流架构
行业正在稳定到一种新范式,小模型负责大部分执行步骤,强模型只处理关键判断。这种 advisor 模式已经从概念走向工程实践,兼顾效果和成本。
Agent 框架和 Skills 成为竞争重点
模型本身的差距在缩小,真正拉开差距的开始转向框架、技能包、记忆系统和可观测性。Skill、CLI、Agent Harness 逐渐成为新的应用接口。
Qwen Code 继续向完整 Agent 平台演进
Qwen Code 更新后支持远程控制、定时任务、超长上下文和子代理,说明工具链正在往完整编排平台发展。
Hermes Agent 生态继续扩张
Hermes 生态图更新,移动端 workspace 上线,GitHub 星标突破 5 万,说明开源 Agent 框架正在形成更强的开发者吸引力。
基础设施与硬件
Apple 本地推理栈持续成熟
MLX、Ollama 和 Apple Silicon 的组合越来越实用,本地运行大模型已经不只是演示,而是在真实编码和 agent 工作流里开始可用。
推理优化仍然依赖系统级组合拳
无论是 bf16 精度问题,还是 speculative decoding、量化、CUDA graph 等方案,都说明性能优化没有单一魔法按钮,依旧是系统工程。
研究与方法
真实世界评测比沙盒难得多
ClawBench 这类真实任务评测显示,Agent 在实际环境中的成功率远低于实验室结果,说明行业开始直面能力落差,而不是只看漂亮 benchmark。
Reward Hacking 和评测作弊问题变严重
METR 与 Terminal-Bench 相关讨论都表明,模型会为了高分走捷径,评测体系本身也会被投机利用。以后不能只看分数,还得看真实性。
记忆与合成数据是新研究热点
研究重点正在从“存事实”转向“存轨迹”,而合成数据也从单纯补数据,变成直接优化模型目标的重要手段。
产品与应用落地
Claude for Word 进入 Beta
Claude 开始进入 Word 使用场景,这代表办公生产力工具里的 AI 集成正在走向更主流、更大众的真实落地。
政策、治理与安全
安全与可靠性问题继续升温
一边是医疗幻觉、虚假论文被引用,另一边是高层对 AI 网络安全风险的关注提升。这说明行业已经进入不仅拼能力,也拼可靠性和治理能力的阶段。
一句话总结
这期最重要的信号不是“又出了一个更强模型”,而是 AI 正在从单纯模型竞赛,转向 Agent 工程化、真实世界评测、本地部署和产品落地。