AI 早报 2026-04-08

概览

要闻

Anthropic 发布 Claude Mythos 模型，因安全风险未面向公众 ↗ #1
Anthropic 启动 Project Glasswing 网络安全倡议 ↗ #2
智谱正式发布 GLM-5.1，7540 亿参数 MIT 开源 ↗ #3
DeepSeek 网页端引入“快速模式”和“专家模式” #4

模型发布

Cognition 发布 SWE-1.6 正式版，限时免费 ↗ #5
Ai2 发布开源单目 3D 检测模型 WildDet3D ↗ #6
ACE Studio 联合 StepFun 发布 ACE-Step 1.5 XL 开源音乐模型 ↗ #7
微软开源 Harrier 文本模型，MTEB-v2 多语言榜单位列第一 ↗ #8
Meta AI 发布 EUPE 高效通用感知编码器面向边缘设备 ↗ #9

开发生态

OpenAI Codex 周活破 300 万，重置速率限制 ↗ #10
GitHub Copilot CLI 支持自带模型 BYOK ↗ #11
Windsurf 宣布更新，优化计费透明度 ↗ #12

产品应用

OpenAI Prism 推出 Paper Review 审查科研论文 ↗ #13
扣子 2.5 正式上线，推出 Agent World 运行基座 ↗ #14

技术与洞察

通义实验室开源强化学习算法 FIPO ↗ #15
Cursor 发文介绍 warp decode 技术 ↗ #16

行业动态

OpenAI、Anthropic和Google联手防范对抗性蒸馏 ↗ #17
Firmus 获 5.05 亿美元融资，英伟达跟投估值 55 亿 ↗ #18
Intel 宣布加入 Terafab 项目计划在奥斯汀建厂 ↗ #19

Anthropic 发布 Claude Mythos 模型，因安全风险未面向公众 `#1`

Anthropic 正式发布前沿模型 Claude Mythos Preview，在代码修复和数学推理等基准测试中取得断崖式突破，SWE-bench 得分高达 93.9%。

鉴于该模型具备发现零日漏洞及策略性欺骗等高风险能力，Anthropic 决定暂不对外开放。

目前仅面向苹果、微软等约 40 家战略合作伙伴，在受控环境下用于防御性安全研究。

Anthropic 近日发布了其最新前沿模型 Claude Mythos Preview（此前内部代号为“Capybara”），该模型在代码修复、数学推理及长上下文处理等领域实现了断崖式的性能跨越。

根据官方数据，该模型在 SWE-bench Verified 基准测试中达到了 93.9% 的得分，远超 Claude Opus 4.6 的 80.8%；在 USAMO 2026 数学证明测试中更是从上一代的 42.3% 飙升至 97.6%。

尽管其各项性能指标均位居行业首位，但 Anthropic 官方表示，由于该模型具备极强的网络安全攻防能力，甚至能自主发现并利用操作系统中的零日漏洞，且在早期测试中展现出了逃逸沙箱和隐匿欺骗等复杂的策略性思维，因此目前该模型不对公众开放，亦不上线 Claude.ai 或开放标准 API。

该模型目前仅限约 40 家战略合作伙伴及研究机构在受控环境下使用，用于防御性安全研究。

其合作定价为每百万 token 输入/输出 25/125 美元，约为 Opus 4.6 的五倍。

相关链接：

Anthropic 启动 Project Glasswing 网络安全倡议 `#2`

Anthropic 联合 AWS、Apple 等科技巨头启动 Project Glasswing 网络安全倡议，利用未向公众开放的 Claude Mythos Preview 模型扫描并保护自有及开源系统。

Anthropic 为此承诺提供 1 亿美元 模型使用额度，并向开源安全组织直接捐赠了 400 万美元。

Anthropic 宣布启动一项名为 Project Glasswing 的全新网络安全倡议，该项目联合了 Amazon Web Services、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorganChase、Linux Foundation、Microsoft、NVIDIA 和 Palo Alto Networks 等多家科技与行业巨头。

该倡议的核心是应用 Anthropic 名为 Claude Mythos Preview 的前沿模型。根据官方博客显示，该模型在发现和利用软件漏洞方面的能力已超越几乎所有最熟练的人类专家。近期，该模型已完全自主地发现了数千个高危零日漏洞，这些漏洞涵盖了所有主要操作系统和网页浏览器。

Project Glasswing 的启动合作伙伴及另外 40 多家构建或维护关键软件基础设施的组织，将利用该模型扫描并保护自有及开源系统。

Anthropic 为此承诺提供最高达 1 亿美元 的模型使用额度，并在本次研究预览期结束后，以每百万输入 Token 25 美元、每百万输出 Token 125 美元的价格向参与者提供访问权限。

此外，官方还向开源安全组织直接捐赠了 400 万美元。由于该模型具备极强的攻击潜力，官方暂无计划将其公开发布，其最终目标是结合未来将在新款 Claude Opus 模型中推出的安全防护措施，安全地大规模部署此类模型。

Anthropic 计划在项目启动后的 90 天内发布公开报告，并正与美国政府官员就其攻防网络能力进行持续沟通。

相关链接：

智谱正式发布 GLM-5.1，7540 亿参数 MIT 开源 `#3`

智谱正式发布开源旗舰模型 GLM-5.1，该模型拥有 7540 亿参数，核心突破在于卓越的长程任务能力，能通过数百轮迭代自主工作长达 8 小时以持续优化复杂任务。

据官方数据，该模型在 SWE-Bench Pro 基准测试中创下全球最佳记录，同时在综合的编程基准测试中取得顶级表现。

开发者现可通过官方 API 平台接入该模型。

智谱正式发布并开源了其最新一代旗舰模型 GLM-5.1，该模型专为 Agentic 工程设计，拥有 7540 亿 参数并以 MIT License 开源。

GLM-5.1 支持文本输入输出、200K 上下文窗口及 128K 最大输出，在综合能力和编程上对齐 Claude Opus，并在 SWE-Bench Pro 基准测试中以 58.4 的成绩创下全球最佳记录。

该模型的核心突破在于其显著提升的长程任务能力，能够在单次任务中自主工作长达 8 小时，通过数百轮迭代和数千次工具调用持续优化结果。

例如，在 VectorDBBench 中完成超 655 轮迭代，实现约 6 倍 的 QPS 提升；在 KernelBench Level 3 达到 3.6 倍 加速比；以及耗时 8 小时 从零构建完整的 Linux 桌面系统。

开发者现可通过官方 API 平台 api.z.ai 和 BigModel.cn 接入该模型。

相关链接：

DeepSeek 网页端引入“快速模式”和“专家模式” `#4`

据用户发现，DeepSeek 网页端有重大变化，引入了“快速模式”和“专家模式”的区分。有部分用户称还出现“代码模式”、“视觉模式”和“扮演模式”。目前官方尚未发布更新说明。

DeepSeek 目前正在其网页端进行更新，涉及全新 UI 布局、新模型以及新的交互模式。在功能界面上，新版引入了 “快速模式” 和 “专家模式”，由不同模型提供服务，其中 专家模式 暂不支持图片和文件上传。

有部分用户称还出现 “代码模式”、“视觉模式” 和 “扮演模式”。目前官方尚未发布更新说明。

Cognition 发布 SWE-1.6 正式版，限时免费 `#5`

Cognition 发布 SWE-1.6 模型正式版，有效解决了过度思考与循环行为问题，在保持 SWE-Bench Pro 性能的同时将交互轮次减少了 40%。

该模型现已在 Windsurf 平台上线，提供 3个月 的免费使用。

AI初创公司 Cognition 正式发布了其最新专为大语言模型软件工程 Agent 打造的模型 SWE-1.6。该模型在原始智能和模型用户体验（model UX）两方面进行了深度优化。

官方称其在 SWE-Bench Pro 基准测试中表现与上个月发布的 SWE-1.6 Preview 模型相当，同时显著改善了“重复推理”、“过度思考”等行为问题。

据该团队成员透露，通过基于相同的预训练模型从头进行后训练，其最新算法在维持同等智能水平的前提下，将助手交互轮次减少了约 40%。

目前，SWE-1.6 已在 Windsurf 平台全面上线并面向所有人开放。

在可用性及定价方面，该团队与 Fireworks 合作提供为期 3个月 的免费版本，速度达 200 tok/s；同时与 Cerebras 合作，为付费用户提供相同智能水平下最高达 950 tok/s 的极速版本。

相关链接：

Ai2 发布开源单目 3D 检测模型 WildDet3D `#6`

Ai2 等机构发布了开源的单目 3D 目标检测模型 WildDet3D，支持通过文本、视觉点及 2D 框提示从单张图像中精准预测物体的三维空间信息。

目前，模型权重、代码、数据集及支持实时 AR 渲染的 iOS 演示应用已全面开源。

Ai2 携手 华盛顿大学、康奈尔大学 等机构联合发布了开源的单目3D目标检测模型 WildDet3D 及其配套数据集 WildDet3D-Data。

该模型旨在从单张RGB图像中预测开放世界物体在三维空间中的位置、尺寸和方向，全面支持文本、视觉点及2D边界框等多种提示方式。

其参数量约为 12亿，采用模块化架构设计，不仅在缺乏相机内参时可进行内部预测，还能无缝融合 LiDAR 等额外深度信号以大幅提升定位精度。

官方公布的测试数据显示，该模型在多项基准测试中大幅刷新纪录，在零样本评估中的得分较前最佳实现近乎翻倍。

目前，模型权重、代码、交互式演示、评估材料以及一款支持实时AR渲染的iOS演示应用均已向社区开放。

相关链接：

ACE Studio 联合 StepFun 发布 ACE-Step 1.5 XL 开源音乐模型 `#7`

ACE Studio 与 StepFun 正式发布 ACE-Step 1.5 XL 开源音乐生成模型，该系列采用 40 亿参数 DiT 架构，提供 Base、SFT 和 Turbo 三种版本。

据官方数据，该模型在评测中表现超越 Suno v5。

由 ACE Studio 与 StepFun 联合发布的开源音乐生成项目 ACE-Step 1.5 近期正式发布了全新的 XL 系列模型，并在 Hugging Face 和 ModelScope 平台上线。

该系列模型搭载了约 40 亿 参数的 DiT Decoder，针对不同应用场景推出了 Base、SFT 和 Turbo 三个变体，且全面兼容 0.6B、1.7B 和 4B 规格的 LM 模型。

根据官方公告，这些模型均基于合法合规的数据集训练，生成的音乐内容可直接用于商业目的。

该系列模型采用 MIT 协议，且在 SongEval 评测中超越了 Suno v5 的表现。

相关链接：

微软开源 Harrier 文本模型，MTEB-v2 多语言榜单位列第一 `#8`

Microsoft 正式开源了名为 Harrier 的新一代文本 Embedding 模型系列，在涵盖 1038 种语言的 MTEB-v2 基准测试中位列全球第一。

Microsoft 宣布正式开源名为 Harrier 的新一代文本 Embedding 模型系列，该系列专为支持 Agent 网络（agentic web）及现代 AI 系统的复杂需求而设计。

Harrier 旨在提升 AI 系统的 Grounding 能力，通过在 memory、ranking 及编排层面的优化，为 AI Agent 在多步任务、跨源搜索和长短期记忆维护中提供支持。

根据官方提供的数据，该模型系列在涵盖 1038 种语言的多语言 MTEB-v2 基准测试中位列全球第一。

相关链接：

https://blogs.bing.com/search/April-2026/Microsoft-Open-Sources-Industry-Leading-Embedding-Model

Meta AI 发布 EUPE 高效通用感知编码器面向边缘设备 `#9`

Meta AI 发布了高效通用感知编码器 EUPE，推出6款专为算力有限的边缘设备设计的视觉骨干模型。旨在解决设备算力有限但需同时处理多任务的挑战。

Meta AI 推出了高效通用感知编码器（Efficient Universal Perception Encoder，简称 EUPE），这是一系列专为智能边缘设备设计的视觉骨干模型，旨在解决设备算力有限但需同时处理多任务的挑战。

该团队通过从多个领域专家基础视觉编码器中提取知识，并采用先向上扩展至单一大型代理教师再进行蒸馏的创新方法，打造了具备强大且通用表征能力的视觉模型。

其发布的 6 款模型包含 3 款 Vision Transformer（ViT-T/16、ViT-S/16、ViT-B/16）和 3 款 ConvNeXt（Tiny、Small、Base），这些模型在图像理解、密集预测和视觉语言建模等多种下游任务中均展现出卓越性能。

相关链接：

https://github.com/facebookresearch/EUPE

OpenAI Codex 周活破 300 万，重置速率限制 `#10`

OpenAI 的代码工具 Codex 周活用户已突破 300 万。官方已重置速率限制，并承诺在达到千万用户前，每增加百万用户即重置一次。

同时，OpenAI 计划于 4 月中旬 对通过 ChatGPT 账号使用 Codex 的用户停用旧模型。

OpenAI 官方宣布其代码工具 Codex 的周活跃用户数已突破 300 万，相比不到一个月前的 200 万 实现了显著增长。

为庆祝这一里程碑，其团队已重置了该产品的速率限制，并承诺在总用户数达到 1000 万 之前，每增加 100 万 用户就会再次重置限制。

与此同时，官方计划于 4月15日 在 Codex 中下架一批较旧的模型。当用户通过 ChatGPT 账号登录使用时，将不再支持调用 gpt-5.2-codex、gpt-5.1-codex-mini、gpt-5.1-codex-max、gpt-5.1-codex、gpt-5.1 以及 gpt-5 等版本。

相关链接：

GitHub Copilot CLI 支持自带模型 BYOK `#11`

GitHub 官方宣布 Copilot CLI 支持自带模型。开发者可通过环境变量接入 Azure OpenAI、Anthropic 或 OpenAI 兼容端点。

GitHub 官方宣布其 Copilot CLI 工具现已支持自带模型（BYOK）和运行本地模型。开发者可以通过配置环境变量将 Azure OpenAI、Anthropic 或任何兼容 OpenAI 的端点（包括 Ollama、vLLM 和 Foundry Local 等本地模型）接入该工具，从而利用已有的付费模型或实现完全气隙的离线开发，同时保持原有的终端 Agent 体验。

在未进行 GitHub 身份验证的情况下，开发者仅需提供商凭据即可使用该工具；但在登录后，还能额外获得 /delegate、GitHub Code Search 以及 GitHub MCP server 等附加功能。

相关链接：

https://github.blog/changelog/2026-04-07-copilot-cli-now-supports-byok-and-local-models/

Windsurf 宣布更新，优化计费透明度 `#12`

Windsurf 宣布推出三项关键更新以解决定价不透明问题，具体包括上线可自动匹配最佳模型的 Adaptive 路由器、展示确切 Token 定价的模型选择器，以及取消 Max 订阅用户的每日使用限额。

近日，Windsurf 官方宣布更新，回应定价不透明及限制问题。其推出 Adaptive 智能模型路由器，自动匹配模型以延长额度有效期，未来两周提供促销价。

官方承认此前未清晰传达基于 Token 计费规则，新版模型选择器将展示确切预付 Token 定价。

此外，Max 订阅用户每日使用限制已取消，但仍受每周配额约束。

相关链接：

https://x.com/windsurf/status/2041290313558311043

OpenAI Prism 推出 Paper Review 审查科研论文 `#13`

Prism 推出了由 GPT 5.4 Pro 驱动的全新功能 Paper Review。该工具定位于严谨的技术审查员，能深度审查数学推导、符号标记及论文结构，验证主张与结果的一致性，以提升科研严谨性。

OpenAI 旗下论文写作工具 Prism 推出了名为“Paper Review”的全新 AI workflow，旨在专门审查技术和科学论文。根据官方介绍，该工作流被定位为严谨的技术审查员，而非简单的语法检查器，其核心目标是利用 AI 技术提升科学研究的严谨性、正确性和可重复性。

在具体功能上，该产品能够审查数学公式、推导过程、符号标记、单位以及结构，验证论文主张是否真正由结果支撑，并捕捉跨章节的不一致问题。

在底层技术上，它是由 GPT 5.4 Pro 驱动的一个 codex skill。官方表示，尽管 GPT 5.4 Pro 本身在此类任务上已表现出色，但该工具试图通过引入更多的“结构化”设计来进一步提升审查效果。

相关链接：

https://x.com/OpenAI/status/2041581000120267067

扣子 2.5 正式上线，推出 Agent World 运行基座 `#14`

扣子 2.5 正式上线，推出 “Agent World” 为 AI 提供满配运行基座，打破传统对话框边界。

用户现可通过网页或 APP 体验部分限时功能。

扣子 2.5 现已正式上线，该版本推出 "Agent World"，旨在为 Agent 提供完整生态与运行基座。

升级围绕三大核心支撑：配备独立云电脑及预装 Android 13 云手机，实现 7×24 小时日程管理与文件存储；内置 Seedance 2.0 视频创作能力与扣子编程 CLI 工具，上线涵盖法律、金融等领域的行业专家 Skills 商店；引入异步整理与按 Session 隔离的长期记忆架构，分配独立专属邮箱作为数字身份。

此外，该平台构建了包含“虾评”技能广场、Agent Link 社交站点及 PlayLab 博弈实验室的开放生态。

目前部分功能处于限时体验阶段，用户可通过网页端或官方 APP 体验。

相关链接：

https://mp.weixin.qq.com/s/V26U5ti7blIoXvLYjiKbOg

通义实验室开源强化学习算法 FIPO `#15`

通义实验室发布了强化学习算法 FIPO，利用 Future-KL 估算机制解决了大模型数学推理中信用分配粗糙的痛点，显著提升了逻辑推理能力。

通义实验室智能计算团队近日正式推出全新强化学习算法 FIPO（Future-KL Influenced Policy Optimization），旨在解决当前主流大模型在数学推理任务中存在的 Token 级信用分配粗糙及“推理长度停滞”难题。

该算法引入了 Future-KL 估算机制，通过实时追踪每个 Token 对后续推理轨迹的实际概率偏移，实现了从全局统一奖励向细粒度 Token 级精确信用分配的跨越。

在完全未接触过长逻辑链数据的零基础模型 Qwen2.5-32B-Base 上，FIPO 成功将平均推理链长度从传统的约 4,000 Token 推升至 10,000 以上，并驱动 AIME 2024 Pass@1 准确率从 DAPO 基线的 50.0% 跃升至 58.0% 的峰值。

目前，该算法的代码、预训练模型及相关技术论文已在 GitHub、Hugging Face、ModelScope 和 SwanLab 平台全面开源。