📰 AI 新闻摘要 2026-05-02
模型与能力
Grok 4.3 发布:降价明显,但幻觉增加
xAI 发布 Grok 4.3,输入降价 40%,输出降价 60%。智能指数升至 53,代理任务能力增强,但非幻觉准确率下降 8 个点。社区评价两极,有人觉得进步快,有人担心可靠性。
DeepSeek V4 Pro:开源模型接近闭源体验
DeepSeek V4 Pro 在编程和代理任务上表现接近 Codex 或 Claude Code。支持 100 万上下文,推理 FLOPs 降低 4 倍。智能指数 52-54,虽仍落后 GPT-5.5,但差距在缩小。
Qwen 生态更新:速度提升与可解释性工具
Qwen 推出 PFlash 技术,在 RTX 3090 上长上下文预填充速度提升 10 倍。同时开源 Qwen-Scope 稀疏自编码器,支持对模型内部特征进行干预和调试。
SenseNova-U1:原生多模态生成模型
商汤发布 SenseNova-U1,无需 VAE 或扩散模型,直接原生生成图文混合内容。支持 2048x2048 分辨率,擅长信息图和带标注 diagram。
Agent 与工具链
Codex 产品迭代快,收入翻倍
OpenAI Codex 应用更新频繁,新增设备工具栏、CI 状态显示和宠物系统。API 收入增长速度是以往发布的 2 倍,上线 7 天内收入翻倍。
Agent 运行时竞争:Devin、Hermes 与 Flue
Devin 推出 shell 快捷键访问;Hermes 增加监督模型强制完成任务;Flue 发布 TypeScript 无头代理框架。竞争焦点从模型智商转向代理 harness 设计。
Agent 基础设施:记忆与持久化执行
LangChain 推出多用户部署和数据隔离功能,支持人工介入(HITL)。Cloudflare 发布 Dynamic Workflows 支持持久化执行。研究指出推理时检索(ReaLM)比传统 RAG 效率更高。
基础设施与硬件
Google TPU 8t/8i:成本与性能大幅提升
Google 新 TPU 芯片训练成本性能提升 170%,推理成本性能提升 80%。数据中心带宽增加 300%,推理延迟降低 56%。
本地硬件搭建:NVIDIA 集群与 AMD 主机
社区展示 16x NVIDIA DGX Spark 集群搭建,用于大模型预填充。AMD Halo Box 搭载 Ryzen 395 和 128GB 内存。
研究与方法
DeepSeek 视觉原语:让模型学会”指点”
DeepSeek 提出”视觉原语”框架,将坐标和边界框作为思维链的最小单位。模型能在推理时直接”指向”图像位置,减少空间推理误差。
多代理与训练方法新进展
递归多代理系统通过潜在空间通信,减少 75% token 使用。Meta 提出自我改进预训练,事实性提升 36%。微软合成 1000 台虚拟电脑数据,解决代理训练数据短缺。
产品与应用落地
本地大模型使用统计:省钱是主因
用户分享 Grafana 仪表盘,显示本地 LLM 主要用于代码审查和数据过滤,每月可节省约 80 美元 API 费用。
Agensi 案例:靠 AI 6 周获 1 万用户
Marketplace Agensi 使用 Claude 和 Lovable 构建,零广告投入,6 周内活跃用户达 1 万,增长 263%。
行业与公司动态
AIE World’s Fair 征集演讲者
Latent Space 宣布 AIE 世界博览会第二波演讲征集,新增自动研究、记忆、世界模型等轨道。
OpenAI 解释”哥布林”来源与 labor 立场
OpenAI 发文解释模型爱用”哥布林”比喻的原因。Sam Altman 重申 AI 是增强人类工具而非替代。
ICML 2026 决策即将公布
社区正在等待 ICML 2026 的论文录取结果,学术界高度关注。
政策、治理与安全
机器人演示事故与网络安全模拟
机器人演示中差点伤到儿童。AISI 测试显示 GPT-5.5 能在 11 分钟内完成人类需 12 小时的网络安全攻击任务,成本仅 1.73 美元。
美国国防部与 AI 公司合作
美国”战争部”CTO 宣布与 7 家前沿 AI 及基础设施公司达成协议,将在机密网络上部署 AI 能力。