AI 新闻摘要 2026-06-19 - 酷加的博客

模型与能力

Zhipu GLM-5.2 成为首个被广泛认可的‘准前沿’开源模型

GLM-5.2 在多个维度突破：实测能力接近 GPT-5.5 和 Claude Opus 4.8，支持 1M 上下文、753B MoE（约 40B 激活），MIT 开源许可；Jeremy Howard 称其‘至少不输 Opus 4.8’，但暂无多模态能力。
> 相关链接：Latent Space 原文｜Hugging Face 免费试用｜Reddit 本地部署讨论

Poolside AI 发布 Laguna M.1：256K 上下文、225B 稀疏 MoE 开源编码模型

Apache 2.0 开源，256 专家、top-k=16，专为长周期编程任务优化；已在 Apple M3 Max（128GB）跑出 26 tok/s，3-bit 量化仅占 ~100GB 内存。
> 相关链接：Twitter 宣布｜MLX 苹果芯片实测

Cohere 推出 North Mini Code：4-bit 量化 + Ollama 支持 + OpenRouter 免费接入

轻量级开源代码模型，主打易部署：Ollama 一键拉起，OpenRouter 免费调用，适合本地开发和教学场景。
> 相关链接：Cohere 官方公告｜Ollama 集成说明

Agent 与工具链

Cursor 推出 /automate：自然语言一键配置自动化工作流

输入一句话任务（如‘每天早 9 点同步 GitHub Issues 到 Notion’），Cursor 自动配好触发器（Slack/GitHub）、工具调用和云执行环境。
> 相关链接：Cursor 官方发布

OpenAI Codex Record & Replay：演示一次，自动生成可复用技能

用户手动操作一遍流程（比如查日志+发告警），系统自动录制成结构化技能，支持回放、调试和共享，开发者反馈这是目前最实用的‘教 AI 做事’方式。
> 相关链接：OpenAI Devs 推文

Claude Code 上线 Artifacts：代理生成内容实时转为共享网页

写代码、画架构图、跑原型时，结果自动变成带版本、可评论、能嵌入的 Live Page，团队内部已用于快速分享设计稿和 PoC。
> 相关链接：ClaudeDevs 公告

研究与方法

Artificial Analysis 发布 AA-Briefcase：首个模拟真实知识工作的长周期评测基准

围绕数周项目、上千碎片输入（邮件/Slack/文档）、交付物（财务模型/董事会简报）设计；GLM-5.2 得分 1266 Elo，仅次于 Anthropic Fable 5（1587），单任务成本仅 $2.40，远低于 Fable 5 的 $31。
> 相关链接：AA-Briefcase 介绍

OpenAI 提出‘健康领域有益行为强化’对齐新路径

在医疗对话上用 RL 训练模型保持诚实、谦逊、关心人类福祉，结果不仅医疗对齐提升（44/53 项评测），连非医疗类欺骗/奖励黑客等测试也改善了 17/19 项。
> 相关链接：OpenAI 对齐研究

基础设施与硬件

Turbopuffer 大幅降价并推 i8 向量：基础版从 $64 降至 $16/月，存储/查询成本降最多 75%

新增 i8 量化向量支持，配合量化感知嵌入，单位维度字节数减少 4 倍，适合中小团队低成本搭建 RAG 应用。
> 相关链接：Turbopuffer 官方更新

LlamaIndex LiteParse v2.1 发布：最快开源 PDF→Markdown 解析器

纯规则+轻模型方案，无需大模型参与解析，速度超多个开源 baseline，在 3 个标准文档解析 benchmark 上均领先。
> 相关链接：LiteParse v2.1 更新

产品与应用落地

GPT-5.5 Instant 在医疗问答上达‘思考模型’水平

经全球 60 国、49 种语言、26 个专科共数百名医生反馈，GPT-5.5 Instant 对临床问题的回答质量已与 GPT-5.5 ‘Thinking’ 版本持平。
> 相关链接：OpenAI 医疗进展

OpenAI o3 Deep Research 帮助医生解决 18 例罕见儿科病疑难诊断

与波士顿儿童医院/哈佛合作，在 376 例既往未确诊病例中，o3 Deep Research 辅助发现 18 个新诊断，已发表于《NEJM AI》。
> 相关链接：NEJM AI 论文

行业与公司动态

印度总理莫迪会见 Mistral CEO Arthur Mensch，强调 AI 合作与本土化

会面聚焦印度 AI 生态建设、模型本地部署及联合研发，是继法国、阿联酋后又一国家级 AI 外交动作，凸显欧洲初创公司地缘影响力上升。
> 相关链接：莫迪推文

政策、治理与安全

Cognition 在 Devin Review 中新增自动安全审查功能

Devin 不再只找漏洞，还能自动验证是否可利用——把低危发现串联成完整攻击链，直接输出可复现的高危 exploit，弥合‘发现 vs 修复’断层。
> 相关链接：Cognition 安全更新