
AI 早报 2026-04-04
概览
模型发布
- 阿里通义实验室发布 Wan2.7-Video 视频生成模型 ↗
#1 - 京东开源发布 JoyAI-Image 图像编辑模型权重 ↗
#2 - 研究团队开源 OmniVoice 覆盖 600 种语言零样本 TTS 模型 ↗
#3 - ElevenLabs Scribe v2 升级,新增实体脱敏及关键词提示扩容 ↗
#4 - Willow 发布 Atlas 1 语音转文本模型 ↗
#5 - Netflix 开源首个 AI 模型 VOID ↗
#6
开发生态
- OpenAI 调整 Codex 计费规则改为按 token 消耗量计价 ↗
#7 - Anthropic 明确禁止第三方工具使用订阅,并提供额度补偿 ↗
#8 - Claude Code 更新减少 Token 消耗、 Anthropic 回应额度异常 ↗
#9 - 小米 MiMo 推出 Token Plan 订阅服务 ↗
#10 - Gemini CLI 发布 v0.36.0,引入 Subagents ↗
#11
产品应用
技术与洞察
- Anthropic 提应用构建三模式,平衡成本延迟 ↗
#14
行业动态
- 消息称 Anthropic 收购 Coefficient Bio ↗
#15 - Sarvam AI 拟融资 3 亿至 3.5 亿美元,亚马逊英伟达或参投
#16
阿里通义实验室发布 Wan2.7-Video 视频生成模型 #1
阿里通义实验室正式发布视频生成模型
Wan2.7-Video,以“戏核驱动”为核心支持全模态输入及全链路创作。该模型具备局部精准修改、指令级剧情调整、多角色锁定等六大核心能力,并在智能剧情设计、多维风格组合及复合运镜方面实现升级。
目前用户已可通过阿里云百炼平台或万相官网体验该模型。
阿里正式上线了全新的视频创作大模型 Wan2.7-Video。该模型不仅支持文本、图像、视频、音频全模态输入,更以“戏核驱动”为核心,实现了从生成、编辑、复刻、重塑到续写的全链路覆盖。
官方公告显示,Wan2.7-Video 具备超强的局部精准修改、指令级剧情调整、多维度创意复刻、无缝剧情续写、最多支持5个主体的角色特征锁定,以及多宫格故事板控制等六大核心能力。
同时,该模型在智能剧情设计、多维风格组合、超40种细分表情演绎,以及包含希区柯克式变焦等复合运镜方面实现了全面升级。
目前,该产品已开放体验,用户可通过阿里云百炼平台或万相官网进行试用。

相关链接:
- https://bailian.console.aliyun.com/cn-beijing?tab=model#/model-market/all?providers=wan
- https://tongyi.aliyun.com/wan
京东开源发布 JoyAI-Image 图像编辑模型权重 #2
京东发布了统一多模态模型 JoyAI-Image 的图像编辑权重 JoyAI-Image-Edit,该模型主打理解、生成与编辑的闭环协作。
支持物体移动、旋转及相机控制三种指令引导的精确空间操作。
近日,京东在 Hugging Face 及 GitHub 平台发布了统一多模态基础模型 JoyAI-Image 的图像编辑权重 JoyAI-Image-Edit。该模型家族结合了 8B 参数的 MLLM 与 16B 参数的 MMDiT 架构,主打理解、生成与编辑的闭环协作能力,通过强大的空间理解提升场景解析与指令分解表现。
目前官方已开放 JoyAI-Image-Und 与 JoyAI-Image-Edit 的下载,其高级多图编辑及文生图版本即将发布。
JoyAI-Image-Edit 支持指令引导的精确空间操作、复杂的文本渲染及多视角生成,并针对空间推理提供了物体移动、物体旋转与相机控制三种特定的提示词编辑模式。


相关链接:
研究团队开源 OmniVoice 覆盖 600 种语言零样本 TTS 模型 #3
研究团队推出了支持超过 600 种语言的大规模零样本文本转语音模型 OmniVoice。该模型采用
扩散语言模型架构,具备零样本克隆、基于指令的语音设计及非语言声音生成能力。
近日,Han Zhu 与 Daniel Povey 等研究人员推出大规模多语言零样本文本转语音模型 OmniVoice。该模型基于扩散语言模型风格的离散非自回归架构,使用 58.1 万小时 开源数据训练。
官方称其支持超 600 种语言,覆盖范围最广。其直接将文本映射到多码本声学 Token,实时率最低达 0.025。
功能包括零样本克隆、属性设计及自动语音生成,支持非语言声音插入及发音控制。
项目权重、代码及论文已公开,支持 PyTorch 环境部署,提供多种命令行工具及在线体验方式。

相关链接:
- https://github.com/k2-fsa/OmniVoice
- https://huggingface.co/k2-fsa/OmniVoice
- https://arxiv.org/abs/2604.00688
ElevenLabs Scribe v2 升级,新增实体脱敏及关键词提示扩容 #4
ElevenLabs 语音转文本模型
Scribe v2正式升级,新增自动移除敏感信息的脱敏功能。优化了印英混合语转换,并提供去除口语词模式。
同时,关键词提示功能已扩容至一千个。
ElevenLabs 旗下的语音转文本模型 Scribe v2 近日迎来了重要升级,一次性推出了四项新功能。
该模型新增了内置实体脱敏功能,能够在转录过程中自动检测并移除姓名、信用卡号等敏感个人身份信息。
针对多语言场景,其优化了 Indic-English(印度语系-英语)的语码转换能力,可确保英语词汇始终以 Latin script 输出。
全新的 No Verbatim 模式则可自动剔除语气词和口吃现象,直接生成整洁的文本。
此外,其 Keyterm prompting 的容量限制从原先的 100 个大幅扩展至 1,000 个。
目前,上述所有新功能均已在 Scribe v2 的 API 和 UI 中向用户全面开放使用。
相关链接:
Willow 发布 Atlas 1 语音转文本模型 #5
Willow 发布语音转文本模型
Atlas 1。官方称该模型在清晰音频和生产环境下的单词错误率分别保持在 1.2% 和 2.1%,大幅优于 OpenAI 等竞品。
Willow 正式推出语音转文本模型 Atlas 1,现已面向所有用户开放。官方宣称,该模型基于首个专为实时听写构建的可扩展人工转录基础设施开发,性能大幅超越 ElevenLabs 等竞品。
根据官方提供的数据,Atlas 1 在清晰音频和生产环境下的单词错误率分别保持在 1.2% 和 2.1%,显著优于多数模型在真实环境中 10% 至 15% 的错误率。

相关链接:
Netflix 开源首个 AI 模型 VOID #6
Netflix 发布了其首个开源AI模型 VOID,该模型基于
CogVideoX架构微调,通过独特的四值掩码条件化技术,能精准擦除视频中的物体并修正物理交互效果。
Netflix近期在 Hugging Face 及 GitHub 平台开源了其首个公开AI模型 VOID(Video Object and Interaction Deletion)。该模型专注于视频对象的智能擦除与物理交互修正,基于 CogVideoX 架构微调而成,通过独特的四值掩码条件化技术,能够从视频中移除指定物体并同步处理其引发的所有物理交互效果(例如人物移除后导致吉他掉落)。
模型包含基础推理与优化推理两个阶段,支持通过 CLI 或 Jupyter Notebook 进行推理,要求运行环境配备 40GB 以上显存(如 A100)。
其开源仓库同时提供了完整的数据生成与训练代码,以便社区复现或进行进一步开发。

相关链接:
- https://github.com/Netflix/void-model
- https://huggingface.co/netflix/void-model
- https://void-model.github.io/
OpenAI 调整 Codex 计费规则改为按 token 消耗量计价 #7
OpenAI 宣布调整 Codex 计价模式,将原有的按消息估算改为直接挂钩
API token消耗量。目前该机制适用于 ChatGPT Business 及新 Enterprise 客户,现有的其他用户将在未来几周内逐步迁移。新机制下,额度消耗取决于输入、缓存输入及输出
token的混合比例。Fast mode 消耗双倍额度。
OpenAI 近日宣布对其 Codex 工具的计价模式与使用限制进行重大调整,将原有的按消息估算计费全面转向直接与 API token 消耗量挂钩的定价体系。
根据官方帮助中心发布的最新费率卡,此次更新的计费方式目前适用于所有 ChatGPT Business 客户以及新开通的 ChatGPT Enterprise 客户,而现有的 Plus、Pro 及 Enterprise/Edu 用户暂时继续沿用旧版计费规则,并将在未来几周内被逐步迁移至新机制。
在新的基于 token 的计费框架下,实际额度消耗将直接取决于输入、缓存输入及输出 token 的混合比例。其中,Fast mode 会产生双倍的 credits 消耗,而处理高上下文任务将消耗更多额度。

相关链接:
- https://developers.openai.com/codex/pricing
- https://help.openai.com/en/articles/20001106-codex-rate-card#codex-rate-card-token-based-pricing
- https://linux.do/t/topic/1887781
Anthropic 明确禁止第三方工具使用订阅,并提供额度补偿 #8
Anthropic 宣布,自太平洋时间本周五中午起,Claude 订阅额度将不再覆盖
OpenClaw等第三方工具,用户需开启 extra usage 或使用 API 密钥才能继续接入。官方称此举是为缓解系统压力,以优先保障核心算力。
作为过渡补偿,Anthropic 为 Pro、Max 和 Team 订阅者提供等同于订阅月费的一次性抵扣额,并推出最高 30% 折扣的预购用量包。
Anthropic 宣布自本周五中午起调整 Claude 计费策略。订阅不再支持 OpenClaw 等第三方工具,用户需单独付费开通“extra usage”或使用 API 密钥。官方称此举因第三方工具带来系统压力,需优先保障核心产品算力。
为平稳过渡,该公司向符合条件的 Pro、Max 和 Team 订阅者提供等同于订阅月费的一次性抵扣额,有效期 90 天,并推出最高 30% 折扣的预购用量包及退款渠道。


相关链接:
- https://x.com/bcherny/status/2040206440556826908
- https://support.claude.com/en/articles/14246053-extra-usage-credit-for-pro-max-and-team-plans
Claude Code 更新减少 Token 消耗、 Anthropic 回应额度异常 #9
Claude Code 发布更新,通过优化
Edit工具和提升MCP结果上限来减少 token 消耗。官方建议用户尽快升级至最新版本,避免恢复旧会话,并通过切换至 Sonnet 4.6 或限制上下文窗口来控制成本。
Anthropic 发布了 Claude Code v2.1.91 版本,该版本优化了 Edit 工具的定位锚点,以减少输出 token 消耗,并将 MCP 工具结果大小上限提升至 500K 字符。
Anthropic 员工 Lydia Hallie 回应了近期用户遭遇额度异常消耗的问题,称高峰时段额度有所收紧,且 100 万 token 上下文会话消耗巨大。
官方已修复部分 bug,但不存在多收费情况。她建议用户默认使用 Sonnet 4.6,限制上下文窗口大小,并避免恢复闲置超过一小时的长会话。

相关链接:
小米 MiMo 推出 Token Plan 订阅服务 #10
Xiaomi MiMo 正式推出 Token Plan 订阅套餐,提供 39 元至659 元四档方案,采用 Credit 点数按不同倍率计费。
在 MiMo-V2-Pro 上,当上下文 < 256k 时,消耗倍率为两倍;当上下文为 256k~1M 时,消耗倍率为四倍。
该套餐还支持其他模型,目前首购可享 88 折优惠。
Xiaomi MiMo 团队推出了 Xiaomi MiMo Token Plan 订阅套餐服务。该服务提供 39 元 至 659 元 四档方案,采用统一 Credit 点数体系计费,支持用户按不同 Credit 消耗倍率灵活调用覆盖全模态的 MiMo-V2-Pro、Omni 及限时免费的 TTS 模型。
其中,调用 MiMo-V2-Pro 时,上下文 < 256k 消耗 2 倍 Credit,上下文 256k~1M 消耗 4 倍 Credit。
目前首购可享 88 折 优惠。


相关链接:
Gemini CLI 发布 v0.36.0,引入 Subagents #11
Gemini CLI 发布 v0.36.0 版本,核心引入 Subagents 功能,用户可通过
@agent指令调用。该版本还提升了启动速度与 UI 体验,集成 VSCode 工作区上下文,并新增代码分析与 UI 生成扩展。
Gemini CLI 发布 v0.36.0 版本。官方承认部分 Google AI Pro 和 Ultra 用户面临响应延迟及高错误率,正积极改善。
该版本核心引入 Subagents 功能,支持本地、远程及并行操作,且在独立上下文窗口运行以节省主会话 token。用户可通过目录配置或 @agent 指令管理,内含协助配置错误的 CLI Help subagent。
此外,更新优化了 Composer UI 与启动速度,支持 VSCode 工作区上下文读取。新增 SonarQube 和 Stitch 扩展,Policy engine 现已允许重定向操作符。
相关链接:
Claude 全面开放 Microsoft 365 连接器 #12
Claude 宣布开放 Microsoft 365 连接器,所有订阅用户均可连接
Outlook、OneDrive及SharePoint,将邮件与文档直接引入 AI 对话处理。
近日,Claude 官方宣布其 Microsoft 365 connectors 现已全面面向所有 Claude 订阅计划开放。
该功能允许用户将 Outlook、OneDrive 和 SharePoint 账户与 Claude 相连,从而将其电子邮件、文档和文件等数据直接引入 AI 对话中进行交互。
目前,所有用户均可通过访问指定配置页面开始使用这项集成服务。

相关链接:
LMArena 暂时下架 Claude Opus 4.6 等三款模型维护平台稳定 #13
LMArena为保障平台长期稳定运行,已暂时下架 Claude Opus 4.6、GPT 5.4 及 Gemini 3.1 三款尖端模型。
这些模型目前已无法在该平台的直接对话和侧边对比模式中使用。
Arena 近日发布官方公告,宣布对平台模型阵容进行重要调整。为确保长期稳定运行与可持续的评测服务,该平台决定暂时下架 Claude Opus 4.6、GPT 5.4 及 Gemini 3.1 三款尖端模型。
上述模型将不再出现在“直接对话”及“侧边对比”模式的访问名单中。

相关链接:
Anthropic 提应用构建三模式,平衡成本延迟 #14
Anthropic 发文探讨随 Claude 智能进化构建应用的方法,提出三种核心模式平衡延迟与成本。建议优先使用模型熟练的基础工具如
bash和text editor,将编排与上下文管理权交还给模型,并利用优化提示词缓存及声明式工具降低成本、把控安全边界。
Anthropic 官方博客近日发文探讨了在 Claude 智能不断进化的背景下,开发者应如何构建应用以平衡延迟与成本。
官方提出了三种核心模式:首先是“善用其已知”,建议开发者优先使用该模型熟练掌握的基础工具(如 bash tool 和 text editor tool)来组合构建复杂功能。
其次是“发问‘我可以停止做什么’”,主张将编排、上下文管理和持久化的控制权逐步交还给模型自身。例如,通过提供 代码执行工具 让其自主编排逻辑,利用 skills 和 context editing 动态管理上下文,以及通过 compaction 和 memory folder 让其在长周期任务中自主决定记忆内容。
最后是“谨慎设定边界”,建议通过优化上下文结构以最大化提示词缓存命中率来降低成本,并利用声明式工具严格把控安全、用户体验与可观测性边界。
官方表示,随着模型能力的跃升,开发者应不断审视并移除以往用于弥补模型不足的冗余架构。目前相关的工具与模式已提供至开源的 claude-api skill 供开发者使用。

相关链接:
消息称 Anthropic 收购 Coefficient Bio #15
据报道,Anthropic 收购了生物AI初创企业 Coefficient Bio,交易价值略高于 4亿美元。Coefficient Bio 团队将加入 Anthropic 医疗生命科学部门,加速
AI在生物研究领域的应用。
据媒体报道,Anthropic 通过价值略高于 4 亿美元 的股票交易,收购了受 Dimension 支持的初创企业 Coefficient Bio。该公司成立仅 8 个月,专注于为生物技术研究开发 AI 模型。
交易完成后,其团队将加入由 Eric Kauderer-Abrams 领导的 Anthropic Health Care Life Sciences 团队。
相关链接:
Sarvam AI 拟融资 3 亿至 3.5 亿美元,亚马逊英伟达或参投 #16
印度AI初创公司 Sarvam AI 开启 3亿至3.5亿美元 融资,预计由 Bessemer 领投,亚马逊、英伟达 及 沙特阿美 参投,估值将达 15亿美元。
据媒体报道,印度人工智能初创公司 Sarvam AI 已正式开启新一轮融资,计划筹集 3亿至3.5亿美元 资金。
据悉,该轮融资预计由风投机构 Bessemer Venture Partners 领投,科技巨头 亚马逊、英伟达 以及沙特阿美旗下的 Prosperity7 Ventures 均在潜在大股东名单之列。
若该笔融资顺利完成,该公司的估值将达到 15亿至15.5亿美元,相关交易最快有望在未来一周内尘埃落定。
提示:内容由AI辅助创作,可能存在幻觉和错误。