AI 新闻摘要 2026-05-28

发布于 2026年05月28日

模型与能力

ESMFold2 发布:6.8B 蛋白质结构开源引擎

Meta 推出 ESMFold2,开源蛋白质结构预测与设计引擎,附带 6.8B 蛋白图谱和 1.1B 预测结构,在抗体设计和治疗靶点上有实际成果,规模超 AlphaFold DB。
> 相关链接:论文发布专家点评

PrismML 发布 Bonsai Image 4B:1-bit 文生图,浏览器就能跑

PrismML 推出 Bonsai Image 4B,1-bit/三元量化文生图扩散模型,模型仅 ~3GB,Apache-2.0 许可,可在 WebGPU 浏览器上 100% 本地运行。但被质疑是 FLUX.2 Klein 4B 的量化版本,原创性存争议。
> 相关链接:模型发布帖演示地址

Qwen3.5/3.6 本地模型大爆发:uncensored 版和 27B 编码能力惊人

社区推出 Qwen3.5-35B-A3B uncensored 版(拒答率从 92% 降到 14%),同时 Qwen 27B 模型被多个用户测试,在单次生成 HTML5 游戏上接近 Sonnet 水平,但长上下文(>64K)会明显退化。NVFP4 GGUF 格式也被社区称赞。
> 相关链接:Uncensored 版发布27B 测评帖子

Surya OCR 2 和 LiteParse v2:文档解析又快又准

Surya OCR 2 发布 650M 模型,83.3% OLMOCR 分数,91 语言 87% 准确率,RTX 5090 上 5 页/秒。LiteParse v2 用 Rust 重写,速度提升 100 倍,支持 WASM 在浏览器/边缘运行。
> 相关链接:Surya OCR 2LiteParse v2

Gemini Embedding 2 和多模态模型小批量更新

Google DeepMind 发布 Gemini Embedding 2 白皮书,支持文本/图像/音频/视频统一嵌入。NVIDIA 推出 LocateAnything(Qwen2.5-3B + Moon-ViT),密集目标检测速度快 10 倍。Hugging Face 集成 Roboflow 的 RF-DETR,宣称超越 YOLO。
> 相关链接:Gemini Embedding 2NVIDIA LocateAnythingRF-DETR 集成


Agent 与工具链

LangChain 连发多个更新:Deep Agents v0.6、Computer Use、Context Hub

LangChain 发布 Deep Agents v0.6,引入 Delta Channels 将 200 轮编码检查点从 5.3GB 降到 129MB;另推出 Fleet 中的 Computer Use 功能和 Context Hub 用于版本化管理 Agent 上下文和技能。
> 相关链接:Deep Agents v0.6Computer Use + Context Hub

Trajectory 融资 1500 万美元:用产品信号持续训练 Agent

Trajectory 上线平台,利用产品使用数据和 Agent 痕迹持续后训练大型 Agent 模型,获得 1500 万美元融资,客户包括 Clay、Harvey、Decagon 等。Baseten 提供 FP8/NVFP4 量化和 H100 自动扩缩支持。
> 相关链接:Trajectory 发布Baseten 支持

OpenAI 收紧 Codex 产品线:统一至 GPT-5.5,新增企业控制

OpenAI 将 Codex 中的 GPT-5.2/5.3-Codex 下线,统一到 GPT-5.5;企业版新增私有 MCP(仅出站 HTTPS)、Workload Identity Federation 和 Admin API(预算警报、白名单、保留策略等),并发布税代理案例表明自我改进能力。
> 相关链接:产品更新公告企业功能详情

Claude Code 强调可靠性更新,GitHub 推 Copilot Dev Days

Anthropic 发布 Claude Code 响应速度和可靠性提升,并简化 bug 反馈流程。GitHub 则推进 Copilot Dev Days 和 MCP 集成,强调”Agent 化 IDE”方向。Cua Driver for Windows 也带来后台电脑使用能力。
> 相关链接:Claude Code 更新GitHub Copilot Dev Days


基础设施与硬件

EAGLE 3.1 改进投机解码,提高长上下文可靠性

EAGLE 3.1 通过稳定隐藏状态反馈和减少深层注意力漂移,提升投机解码鲁棒性,特别强调长上下文接受长度和实际部署可靠性,并已与 vLLM 和 TorchSpec 合作。
> 相关链接:论文公告

Perplexity 开源高速 Tokenizer:CPU 利用率降 5-6 倍

Perplexity 开源重建的 Unigram tokenizer,CPU 利用率降低 5-6 倍,514 token 时延迟仅 63 µs,零堆分配,适合低延迟推理。
> 相关链接:开源发布

DeepSeek V4-Pro 推理成本再降:KV 缓存仅 V3.2 的 10%

DeepSeek V4-Pro 通过压缩稀疏注意力和重度压缩注意力,1M token KV 缓存降至 V3.2 的 ~10%,单 token 推理 FLOPs 降 73%。小米 MiMo 也通过 SWA+分层缓存实现类似效果。多个分析师认为这是结构降价,不是补贴。
> 相关链接:详细分析小米 MiMo 说明

Cluaiz 引擎声称在 RTX 3050 4GB 上跑 4B 模型达 66.8 TPS

开发者用 Rust 自研推理引擎 Cluaiz,在 4GB 显卡上运行 1.58-bit Bonsai 4B 模型达 66.8 token/s。社区质疑其”直接硬件访问”营销话术,认为可能只是原生编译 + llama.cpp 能达到的水平,需更多可复现基准。
> 相关链接:Reddit 原帖


研究与方法

Sakana AI 提出 DiffusionBlocks:逐块训练深度网络,节省巨量显存

DiffusionBlocks 将前向视为扩散去噪步骤,每次只训练一个模块,显存大幅降低,在 ViT、DiT、扩散、自回归等架构上达到端到端同等性能。
> 相关链接:论文发布

Snowflake 推出 ZoRRo:长上下文 RL 训练快 3.5 倍

ZoRRO 通过消除冗余 rollout 计算,实现长上下文强化学习训练速度提升 3.5 倍,上下文窗口扩展 3.2 倍。同时发布 Arctic-Text2SQL-R2 企业 SQL 模型。
> 相关链接:ZoRRo 公告

DeepSWE 和 ITBench-AA:新基准考验 Agent 长程真实工作流

DeepSWE 含 113 个任务(5 种语言),平均需改 7 个文件,比 SWE-Bench 难 5.5 倍。ITBench-AA(IBM+Artificial Analysis)测试 K8s 事件响应,所有前沿模型得分低于 50%,Claude Opus 4.7 最高 47%。AgingBench 揭示部署后 Agent 退化问题。
> 相关链接:DeepSWE 发布ITBench-AA


产品与应用落地

OpenAI 案例:Codex 做税代理,自我改进闭环

OpenAI 发布案例,用 Codex 构建自我改进的税务代理:通过追踪人工审查修正,自动生成评估并修复错误,形成闭环。这是代理自我进化落地的具体例子。
> 相关链接:案例研究

Cloudflare Agent 平台获好评:“零碎算力”经济模式

Cloudflare 的 Agent 平台被多位用户称赞,认为其”零碎计算”经济学适合边缘推理,同时 Grok Build 增加 worktree 支持,面向多智能体代码集群。
> 相关链接:Cloudflare 平台讨论


行业与公司动态

Cognition 再融 10 亿美元,估值 260 亿,年内 ARR 预计超 10 亿

Cognition(Devin 公司)宣布融资超 10 亿美元,估值 260 亿美元,当前营收约 4.92 亿美元,企业使用量年增 10 倍以上,成为最大独立 Agent 实验室。客户包括 Exa、Modal 等挑剔企业。
> 相关链接:融资公告增长分析




评论