模型与能力
Zhipu GLM-5.2 成为首个被广泛认可的‘准前沿’开源模型
GLM-5.2 在多个维度突破:实测能力接近 GPT-5.5 和 Claude Opus 4.8,支持 1M 上下文、753B MoE(约 40B 激活),MIT 开源许可;Jeremy Howard 称其‘至少不输 Opus 4.8’,但暂无多模态能力。
> 相关链接:Latent Space 原文|Hugging Face 免费试用|Reddit 本地部署讨论
Poolside AI 发布 Laguna M.1:256K 上下文、225B 稀疏 MoE 开源编码模型
Apache 2.0 开源,256 专家、top-k=16,专为长周期编程任务优化;已在 Apple M3 Max(128GB)跑出 26 tok/s,3-bit 量化仅占 ~100GB 内存。
> 相关链接:Twitter 宣布|MLX 苹果芯片实测
Cohere 推出 North Mini Code:4-bit 量化 + Ollama 支持 + OpenRouter 免费接入
轻量级开源代码模型,主打易部署:Ollama 一键拉起,OpenRouter 免费调用,适合本地开发和教学场景。
> 相关链接:Cohere 官方公告|Ollama 集成说明
Agent 与工具链
Cursor 推出 /automate:自然语言一键配置自动化工作流
输入一句话任务(如‘每天早 9 点同步 GitHub Issues 到 Notion’),Cursor 自动配好触发器(Slack/GitHub)、工具调用和云执行环境。
> 相关链接:Cursor 官方发布
OpenAI Codex Record & Replay:演示一次,自动生成可复用技能
用户手动操作一遍流程(比如查日志+发告警),系统自动录制成结构化技能,支持回放、调试和共享,开发者反馈这是目前最实用的‘教 AI 做事’方式。
> 相关链接:OpenAI Devs 推文
Claude Code 上线 Artifacts:代理生成内容实时转为共享网页
写代码、画架构图、跑原型时,结果自动变成带版本、可评论、能嵌入的 Live Page,团队内部已用于快速分享设计稿和 PoC。
> 相关链接:ClaudeDevs 公告
研究与方法
Artificial Analysis 发布 AA-Briefcase:首个模拟真实知识工作的长周期评测基准
围绕数周项目、上千碎片输入(邮件/Slack/文档)、交付物(财务模型/董事会简报)设计;GLM-5.2 得分 1266 Elo,仅次于 Anthropic Fable 5(1587),单任务成本仅 $2.40,远低于 Fable 5 的 $31。
> 相关链接:AA-Briefcase 介绍
OpenAI 提出‘健康领域有益行为强化’对齐新路径
在医疗对话上用 RL 训练模型保持诚实、谦逊、关心人类福祉,结果不仅医疗对齐提升(44/53 项评测),连非医疗类欺骗/奖励黑客等测试也改善了 17/19 项。
> 相关链接:OpenAI 对齐研究
基础设施与硬件
Turbopuffer 大幅降价并推 i8 向量:基础版从 $64 降至 $16/月,存储/查询成本降最多 75%
新增 i8 量化向量支持,配合量化感知嵌入,单位维度字节数减少 4 倍,适合中小团队低成本搭建 RAG 应用。
> 相关链接:Turbopuffer 官方更新
LlamaIndex LiteParse v2.1 发布:最快开源 PDF→Markdown 解析器
纯规则+轻模型方案,无需大模型参与解析,速度超多个开源 baseline,在 3 个标准文档解析 benchmark 上均领先。
> 相关链接:LiteParse v2.1 更新
产品与应用落地
GPT-5.5 Instant 在医疗问答上达‘思考模型’水平
经全球 60 国、49 种语言、26 个专科共数百名医生反馈,GPT-5.5 Instant 对临床问题的回答质量已与 GPT-5.5 ‘Thinking’ 版本持平。
> 相关链接:OpenAI 医疗进展
OpenAI o3 Deep Research 帮助医生解决 18 例罕见儿科病疑难诊断
与波士顿儿童医院/哈佛合作,在 376 例既往未确诊病例中,o3 Deep Research 辅助发现 18 个新诊断,已发表于《NEJM AI》。
> 相关链接:NEJM AI 论文
行业与公司动态
印度总理莫迪会见 Mistral CEO Arthur Mensch,强调 AI 合作与本土化
会面聚焦印度 AI 生态建设、模型本地部署及联合研发,是继法国、阿联酋后又一国家级 AI 外交动作,凸显欧洲初创公司地缘影响力上升。
> 相关链接:莫迪推文
政策、治理与安全
Cognition 在 Devin Review 中新增自动安全审查功能
Devin 不再只找漏洞,还能自动验证是否可利用——把低危发现串联成完整攻击链,直接输出可复现的高危 exploit,弥合‘发现 vs 修复’断层。
> 相关链接:Cognition 安全更新