AI 新闻摘要 2026-05-28

模型与能力

ESMFold2 发布：6.8B 蛋白质结构开源引擎

Meta 推出 ESMFold2，开源蛋白质结构预测与设计引擎，附带 6.8B 蛋白图谱和 1.1B 预测结构，在抗体设计和治疗靶点上有实际成果，规模超 AlphaFold DB。
> 相关链接：论文发布｜专家点评

PrismML 发布 Bonsai Image 4B：1-bit 文生图，浏览器就能跑

PrismML 推出 Bonsai Image 4B，1-bit/三元量化文生图扩散模型，模型仅 ~3GB，Apache-2.0 许可，可在 WebGPU 浏览器上 100% 本地运行。但被质疑是 FLUX.2 Klein 4B 的量化版本，原创性存争议。
> 相关链接：模型发布帖｜演示地址

Qwen3.5/3.6 本地模型大爆发：uncensored 版和 27B 编码能力惊人

社区推出 Qwen3.5-35B-A3B uncensored 版（拒答率从 92% 降到 14%），同时 Qwen 27B 模型被多个用户测试，在单次生成 HTML5 游戏上接近 Sonnet 水平，但长上下文（>64K）会明显退化。NVFP4 GGUF 格式也被社区称赞。
> 相关链接：Uncensored 版发布｜27B 测评帖子

Surya OCR 2 和 LiteParse v2：文档解析又快又准

Surya OCR 2 发布 650M 模型，83.3% OLMOCR 分数，91 语言 87% 准确率，RTX 5090 上 5 页/秒。LiteParse v2 用 Rust 重写，速度提升 100 倍，支持 WASM 在浏览器/边缘运行。
> 相关链接：Surya OCR 2｜LiteParse v2

Gemini Embedding 2 和多模态模型小批量更新

Google DeepMind 发布 Gemini Embedding 2 白皮书，支持文本/图像/音频/视频统一嵌入。NVIDIA 推出 LocateAnything（Qwen2.5-3B + Moon-ViT），密集目标检测速度快 10 倍。Hugging Face 集成 Roboflow 的 RF-DETR，宣称超越 YOLO。
> 相关链接：Gemini Embedding 2｜NVIDIA LocateAnything｜RF-DETR 集成

Agent 与工具链

LangChain 连发多个更新：Deep Agents v0.6、Computer Use、Context Hub

LangChain 发布 Deep Agents v0.6，引入 Delta Channels 将 200 轮编码检查点从 5.3GB 降到 129MB；另推出 Fleet 中的 Computer Use 功能和 Context Hub 用于版本化管理 Agent 上下文和技能。
> 相关链接：Deep Agents v0.6｜Computer Use + Context Hub

Trajectory 融资 1500 万美元：用产品信号持续训练 Agent

Trajectory 上线平台，利用产品使用数据和 Agent 痕迹持续后训练大型 Agent 模型，获得 1500 万美元融资，客户包括 Clay、Harvey、Decagon 等。Baseten 提供 FP8/NVFP4 量化和 H100 自动扩缩支持。
> 相关链接：Trajectory 发布｜Baseten 支持

OpenAI 收紧 Codex 产品线：统一至 GPT-5.5，新增企业控制

OpenAI 将 Codex 中的 GPT-5.2/5.3-Codex 下线，统一到 GPT-5.5；企业版新增私有 MCP（仅出站 HTTPS）、Workload Identity Federation 和 Admin API（预算警报、白名单、保留策略等），并发布税代理案例表明自我改进能力。
> 相关链接：产品更新公告｜企业功能详情

Claude Code 强调可靠性更新，GitHub 推 Copilot Dev Days

Anthropic 发布 Claude Code 响应速度和可靠性提升，并简化 bug 反馈流程。GitHub 则推进 Copilot Dev Days 和 MCP 集成，强调”Agent 化 IDE”方向。Cua Driver for Windows 也带来后台电脑使用能力。
> 相关链接：Claude Code 更新｜GitHub Copilot Dev Days

基础设施与硬件

EAGLE 3.1 改进投机解码，提高长上下文可靠性

EAGLE 3.1 通过稳定隐藏状态反馈和减少深层注意力漂移，提升投机解码鲁棒性，特别强调长上下文接受长度和实际部署可靠性，并已与 vLLM 和 TorchSpec 合作。
> 相关链接：论文公告

Perplexity 开源高速 Tokenizer：CPU 利用率降 5-6 倍

Perplexity 开源重建的 Unigram tokenizer，CPU 利用率降低 5-6 倍，514 token 时延迟仅 63 µs，零堆分配，适合低延迟推理。
> 相关链接：开源发布

DeepSeek V4-Pro 推理成本再降：KV 缓存仅 V3.2 的 10%

DeepSeek V4-Pro 通过压缩稀疏注意力和重度压缩注意力，1M token KV 缓存降至 V3.2 的 ~10%，单 token 推理 FLOPs 降 73%。小米 MiMo 也通过 SWA+分层缓存实现类似效果。多个分析师认为这是结构降价，不是补贴。
> 相关链接：详细分析｜小米 MiMo 说明

Cluaiz 引擎声称在 RTX 3050 4GB 上跑 4B 模型达 66.8 TPS

开发者用 Rust 自研推理引擎 Cluaiz，在 4GB 显卡上运行 1.58-bit Bonsai 4B 模型达 66.8 token/s。社区质疑其”直接硬件访问”营销话术，认为可能只是原生编译 + llama.cpp 能达到的水平，需更多可复现基准。
> 相关链接：Reddit 原帖

研究与方法

Sakana AI 提出 DiffusionBlocks：逐块训练深度网络，节省巨量显存

DiffusionBlocks 将前向视为扩散去噪步骤，每次只训练一个模块，显存大幅降低，在 ViT、DiT、扩散、自回归等架构上达到端到端同等性能。
> 相关链接：论文发布

Snowflake 推出 ZoRRo：长上下文 RL 训练快 3.5 倍

ZoRRO 通过消除冗余 rollout 计算，实现长上下文强化学习训练速度提升 3.5 倍，上下文窗口扩展 3.2 倍。同时发布 Arctic-Text2SQL-R2 企业 SQL 模型。
> 相关链接：ZoRRo 公告

DeepSWE 和 ITBench-AA：新基准考验 Agent 长程真实工作流

DeepSWE 含 113 个任务（5 种语言），平均需改 7 个文件，比 SWE-Bench 难 5.5 倍。ITBench-AA（IBM+Artificial Analysis）测试 K8s 事件响应，所有前沿模型得分低于 50%，Claude Opus 4.7 最高 47%。AgingBench 揭示部署后 Agent 退化问题。
> 相关链接：DeepSWE 发布｜ITBench-AA

产品与应用落地

OpenAI 案例：Codex 做税代理，自我改进闭环

OpenAI 发布案例，用 Codex 构建自我改进的税务代理：通过追踪人工审查修正，自动生成评估并修复错误，形成闭环。这是代理自我进化落地的具体例子。
> 相关链接：案例研究

Cloudflare Agent 平台获好评：“零碎算力”经济模式

Cloudflare 的 Agent 平台被多位用户称赞，认为其”零碎计算”经济学适合边缘推理，同时 Grok Build 增加 worktree 支持，面向多智能体代码集群。
> 相关链接：Cloudflare 平台讨论

行业与公司动态

Cognition 再融 10 亿美元，估值 260 亿，年内 ARR 预计超 10 亿

Cognition（Devin 公司）宣布融资超 10 亿美元，估值 260 亿美元，当前营收约 4.92 亿美元，企业使用量年增 10 倍以上，成为最大独立 Agent 实验室。客户包括 Exa、Modal 等挑剔企业。
> 相关链接：融资公告｜增长分析