AI 新闻摘要 2026-06-06

模型与能力 Claude Mythos 和 Opus 更新:用户称赞与基准争议 社区热议Claude Mythos输出质量高,但Opus 4.8在LLM辩论基准上不如4.7。Anthropic展示Opus 4.7在化学NMR任务上匹敌专业软件,自称“让Claude成为化学家”。 > 相关链接:用户反

coolplus
发布于 2026年06月09日

AI 新闻摘要 2026-06-09

模型与能力 Cognition 发布 FrontierCode 基准:代码可合并性才是真本事 Cognition 推出 FrontierCode,专门评估 AI 生成的代码是否真的能被合并到项目中,而不仅仅是跑通单元测试。最难的子集里,最强模型 Opus 4.8 也只拿到 13%,远低于 SWE-B

coolplus
发布于 2026年06月09日

AI 新闻摘要 2026-06-04

模型与能力 Microsoft 发布 MAI-Thinking-1 技术报告 微软公开了 MAI-Thinking-1 模型的技术报告,透露训练未使用第三方蒸馏或合成数据,AIME 2025 达 97%,SWE-Bench Pro 53%,人类偏好盲评超 Sonnet 4.6。报告透明地分享了训练栈

coolplus
发布于 2026年06月04日

AI 新闻摘要 2026-06-03

模型与能力 微软发布 MAI-Thinking-1:35B 活跃参数的推理模型 微软在 Build 大会上推出旗舰推理模型 MAI-Thinking-1,35B 活跃参数的 MoE,256K 上下文。AIME 2025 达 97%,SWE-Bench Pro 53%,盲测偏好超过 Sonnet 4.

coolplus
发布于 2026年06月03日

AI 新闻摘要 2026-06-02

模型与能力 NVIDIA 发布 Cosmos 3:开源多模态世界模型,语言/图像/视频/音频/动作全统一 Cosmos 3 采用 Mixture-of-Transformers 架构(自回归推理器 + 扩散生成器),提供 Nano(16B)和 Super(64B)两个尺寸。文本转图像、图像转视频能力

coolplus
发布于 2026年06月02日

AI 新闻摘要 2026-05-30

模型与能力 Claude Opus 4.8 发布:增量改进,更合作但价格仍是槽点 多个独立评测显示 Opus 4.8 进步不大但使用体验更好,编码时更少过度代理、更合作。Anthropic 同时支持对话中修改系统指令且不破坏缓存,对长会话很有用。不过 API 价格依然偏高,用户吐槽没便宜下来。 >

coolplus
发布于 2026年05月30日

AI 新闻摘要 2026-05-29

模型与能力 Claude Opus 4.8 发布:更精准、更诚实、更长自主工作 Anthropic 推出 Claude Opus 4.8,主要改进是判断更精准、更诚实、能更长时间独立工作,价格不变。社区反馈称它更愿意承认错误、减少偷懒,被认为是“最不懒惰的模型”。 > 相关链接:官方发布|

coolplus
发布于 2026年05月29日

AI 新闻摘要 2026-05-28

模型与能力 ESMFold2 发布:6.8B 蛋白质结构开源引擎 Meta 推出 ESMFold2,开源蛋白质结构预测与设计引擎,附带 6.8B 蛋白图谱和 1.1B 预测结构,在抗体设计和治疗靶点上有实际成果,规模超 AlphaFold DB。 > 相关链接:论文发布|

coolplus
发布于 2026年05月28日

AI 新闻摘要 2026-05-27

基础设施与硬件——AI Infra 十亿美元俱乐部再添新成员 Fireworks 以 150 亿美元估值融资,Baseten 以 110 亿美元估值融资 AI Infra 领域的”十亿美元估值”俱乐部正在加速扩张。Fireworks 正在以约 150 亿美元估值进行融资(7 个月内估值增长 3.75

coolplus
发布于 2026年05月27日

AI 新闻摘要 2026-05-23

模型与能力 DeepSeek 永久降价 75%:V4-Pro 便宜到懒得计量 DeepSeek 把 V4-Pro 的 75% 折扣变成永久价,输入 $0.435/M、输出 $0.87/M、缓存输入仅 $0.0036/M。据估算,同等智能水平下成本比 Gemini 3.1 Pro 低 3 倍,比 GP

coolplus
发布于 2026年05月23日