AI 新闻摘要 2026-06-19

发布于 2026年06月20日

模型与能力

Zhipu GLM-5.2 成为首个被广泛认可的‘准前沿’开源模型

GLM-5.2 在多个维度突破:实测能力接近 GPT-5.5 和 Claude Opus 4.8,支持 1M 上下文、753B MoE(约 40B 激活),MIT 开源许可;Jeremy Howard 称其‘至少不输 Opus 4.8’,但暂无多模态能力。
> 相关链接:Latent Space 原文Hugging Face 免费试用Reddit 本地部署讨论

Poolside AI 发布 Laguna M.1:256K 上下文、225B 稀疏 MoE 开源编码模型

Apache 2.0 开源,256 专家、top-k=16,专为长周期编程任务优化;已在 Apple M3 Max(128GB)跑出 26 tok/s,3-bit 量化仅占 ~100GB 内存。
> 相关链接:Twitter 宣布MLX 苹果芯片实测

Cohere 推出 North Mini Code:4-bit 量化 + Ollama 支持 + OpenRouter 免费接入

轻量级开源代码模型,主打易部署:Ollama 一键拉起,OpenRouter 免费调用,适合本地开发和教学场景。
> 相关链接:Cohere 官方公告Ollama 集成说明


Agent 与工具链

Cursor 推出 /automate:自然语言一键配置自动化工作流

输入一句话任务(如‘每天早 9 点同步 GitHub Issues 到 Notion’),Cursor 自动配好触发器(Slack/GitHub)、工具调用和云执行环境。
> 相关链接:Cursor 官方发布

OpenAI Codex Record & Replay:演示一次,自动生成可复用技能

用户手动操作一遍流程(比如查日志+发告警),系统自动录制成结构化技能,支持回放、调试和共享,开发者反馈这是目前最实用的‘教 AI 做事’方式。
> 相关链接:OpenAI Devs 推文

Claude Code 上线 Artifacts:代理生成内容实时转为共享网页

写代码、画架构图、跑原型时,结果自动变成带版本、可评论、能嵌入的 Live Page,团队内部已用于快速分享设计稿和 PoC。
> 相关链接:ClaudeDevs 公告


研究与方法

Artificial Analysis 发布 AA-Briefcase:首个模拟真实知识工作的长周期评测基准

围绕数周项目、上千碎片输入(邮件/Slack/文档)、交付物(财务模型/董事会简报)设计;GLM-5.2 得分 1266 Elo,仅次于 Anthropic Fable 5(1587),单任务成本仅 $2.40,远低于 Fable 5 的 $31。
> 相关链接:AA-Briefcase 介绍

OpenAI 提出‘健康领域有益行为强化’对齐新路径

在医疗对话上用 RL 训练模型保持诚实、谦逊、关心人类福祉,结果不仅医疗对齐提升(44/53 项评测),连非医疗类欺骗/奖励黑客等测试也改善了 17/19 项。
> 相关链接:OpenAI 对齐研究


基础设施与硬件

Turbopuffer 大幅降价并推 i8 向量:基础版从 $64 降至 $16/月,存储/查询成本降最多 75%

新增 i8 量化向量支持,配合量化感知嵌入,单位维度字节数减少 4 倍,适合中小团队低成本搭建 RAG 应用。
> 相关链接:Turbopuffer 官方更新

LlamaIndex LiteParse v2.1 发布:最快开源 PDF→Markdown 解析器

纯规则+轻模型方案,无需大模型参与解析,速度超多个开源 baseline,在 3 个标准文档解析 benchmark 上均领先。
> 相关链接:LiteParse v2.1 更新


产品与应用落地

GPT-5.5 Instant 在医疗问答上达‘思考模型’水平

经全球 60 国、49 种语言、26 个专科共数百名医生反馈,GPT-5.5 Instant 对临床问题的回答质量已与 GPT-5.5 ‘Thinking’ 版本持平。
> 相关链接:OpenAI 医疗进展

OpenAI o3 Deep Research 帮助医生解决 18 例罕见儿科病疑难诊断

与波士顿儿童医院/哈佛合作,在 376 例既往未确诊病例中,o3 Deep Research 辅助发现 18 个新诊断,已发表于《NEJM AI》。
> 相关链接:NEJM AI 论文


行业与公司动态

印度总理莫迪会见 Mistral CEO Arthur Mensch,强调 AI 合作与本土化

会面聚焦印度 AI 生态建设、模型本地部署及联合研发,是继法国、阿联酋后又一国家级 AI 外交动作,凸显欧洲初创公司地缘影响力上升。
> 相关链接:莫迪推文


政策、治理与安全

Cognition 在 Devin Review 中新增自动安全审查功能

Devin 不再只找漏洞,还能自动验证是否可利用——把低危发现串联成完整攻击链,直接输出可复现的高危 exploit,弥合‘发现 vs 修复’断层。
> 相关链接:Cognition 安全更新




评论