← 返回首页

Ai前哨战

2026-04-04

AI 早报 2026-04-04 概览 模型发布 阿里通义实验室发布 Wan2.7-Video 视频生成模型 ↗ #1 京东开源发布 JoyAI-Image 图像编辑模型权重 ↗ #2 研究团队开源 OmniVoice 覆盖 600 种语言零样本 TTS 模型 ↗ #3 ElevenLabs Scribe v2 升级,新增实体脱敏及关键词提示扩容 ↗ #4…

2026年4月4日星期六 00:58

AI 早报 2026-04-04

概览

模型发布

  • 阿里通义实验室发布 Wan2.7-Video 视频生成模型 #1
  • 京东开源发布 JoyAI-Image 图像编辑模型权重 #2
  • 研究团队开源 OmniVoice 覆盖 600 种语言零样本 TTS 模型 #3
  • ElevenLabs Scribe v2 升级,新增实体脱敏及关键词提示扩容 #4
  • Willow 发布 Atlas 1 语音转文本模型 #5
  • Netflix 开源首个 AI 模型 VOID #6

开发生态

  • OpenAI 调整 Codex 计费规则改为按 token 消耗量计价 #7
  • Anthropic 明确禁止第三方工具使用订阅,并提供额度补偿 #8
  • Claude Code 更新减少 Token 消耗、 Anthropic 回应额度异常 #9
  • 小米 MiMo 推出 Token Plan 订阅服务 #10
  • Gemini CLI 发布 v0.36.0,引入 Subagents #11

产品应用

  • Claude 全面开放 Microsoft 365 连接器 #12
  • LMArena 暂时下架 Claude Opus 4.6 等三款模型维护平台稳定 #13

技术与洞察

  • Anthropic 提应用构建三模式,平衡成本延迟 #14

行业动态

  • 消息称 Anthropic 收购 Coefficient Bio #15
  • Sarvam AI 拟融资 3 亿至 3.5 亿美元,亚马逊英伟达或参投 #16

阿里通义实验室发布 Wan2.7-Video 视频生成模型 #1

阿里通义实验室正式发布视频生成模型 Wan2.7-Video,以“戏核驱动”为核心支持全模态输入及全链路创作。

该模型具备局部精准修改、指令级剧情调整、多角色锁定等六大核心能力,并在智能剧情设计、多维风格组合及复合运镜方面实现升级。

目前用户已可通过阿里云百炼平台或万相官网体验该模型。

阿里正式上线了全新的视频创作大模型 Wan2.7-Video。该模型不仅支持文本、图像、视频、音频全模态输入,更以“戏核驱动”为核心,实现了从生成、编辑、复刻、重塑到续写的全链路覆盖。

官方公告显示,Wan2.7-Video 具备超强的局部精准修改、指令级剧情调整、多维度创意复刻、无缝剧情续写、最多支持5个主体的角色特征锁定,以及多宫格故事板控制等六大核心能力。

同时,该模型在智能剧情设计、多维风格组合、超40种细分表情演绎,以及包含希区柯克式变焦等复合运镜方面实现了全面升级。

目前,该产品已开放体验,用户可通过阿里云百炼平台或万相官网进行试用。

相关链接:


京东开源发布 JoyAI-Image 图像编辑模型权重 #2

京东发布了统一多模态模型 JoyAI-Image 的图像编辑权重 JoyAI-Image-Edit,该模型主打理解、生成与编辑的闭环协作。

支持物体移动、旋转及相机控制三种指令引导的精确空间操作。

近日,京东在 Hugging Face 及 GitHub 平台发布了统一多模态基础模型 JoyAI-Image 的图像编辑权重 JoyAI-Image-Edit。该模型家族结合了 8B 参数的 MLLM 与 16B 参数的 MMDiT 架构,主打理解、生成与编辑的闭环协作能力,通过强大的空间理解提升场景解析与指令分解表现。

目前官方已开放 JoyAI-Image-UndJoyAI-Image-Edit 的下载,其高级多图编辑及文生图版本即将发布。

JoyAI-Image-Edit 支持指令引导的精确空间操作、复杂的文本渲染及多视角生成,并针对空间推理提供了物体移动、物体旋转与相机控制三种特定的提示词编辑模式。

相关链接:


研究团队开源 OmniVoice 覆盖 600 种语言零样本 TTS 模型 #3

研究团队推出了支持超过 600 种语言的大规模零样本文本转语音模型 OmniVoice。该模型采用 扩散语言模型 架构,具备零样本克隆、基于指令的语音设计及非语言声音生成能力。

近日,Han ZhuDaniel Povey 等研究人员推出大规模多语言零样本文本转语音模型 OmniVoice。该模型基于扩散语言模型风格的离散非自回归架构,使用 58.1 万小时 开源数据训练。

官方称其支持超 600 种语言,覆盖范围最广。其直接将文本映射到多码本声学 Token,实时率最低达 0.025

功能包括零样本克隆、属性设计及自动语音生成,支持非语言声音插入及发音控制。

项目权重、代码及论文已公开,支持 PyTorch 环境部署,提供多种命令行工具及在线体验方式。

相关链接:


ElevenLabs Scribe v2 升级,新增实体脱敏及关键词提示扩容 #4

ElevenLabs 语音转文本模型 Scribe v2 正式升级,新增自动移除敏感信息的脱敏功能。

优化了印英混合语转换,并提供去除口语词模式。

同时,关键词提示功能已扩容至一千个

ElevenLabs 旗下的语音转文本模型 Scribe v2 近日迎来了重要升级,一次性推出了四项新功能。

该模型新增了内置实体脱敏功能,能够在转录过程中自动检测并移除姓名、信用卡号等敏感个人身份信息。

针对多语言场景,其优化了 Indic-English(印度语系-英语)的语码转换能力,可确保英语词汇始终以 Latin script 输出。

全新的 No Verbatim 模式则可自动剔除语气词和口吃现象,直接生成整洁的文本。

此外,其 Keyterm prompting 的容量限制从原先的 100 个大幅扩展至 1,000 个。

目前,上述所有新功能均已在 Scribe v2 的 API 和 UI 中向用户全面开放使用。

相关链接:


Willow 发布 Atlas 1 语音转文本模型 #5

Willow 发布语音转文本模型 Atlas 1。官方称该模型在清晰音频和生产环境下的单词错误率分别保持在 1.2%2.1%,大幅优于 OpenAI 等竞品。

Willow 正式推出语音转文本模型 Atlas 1,现已面向所有用户开放。官方宣称,该模型基于首个专为实时听写构建的可扩展人工转录基础设施开发,性能大幅超越 ElevenLabs 等竞品。

根据官方提供的数据,Atlas 1 在清晰音频和生产环境下的单词错误率分别保持在 1.2%2.1%,显著优于多数模型在真实环境中 10%15% 的错误率。

相关链接:


Netflix 开源首个 AI 模型 VOID #6

Netflix 发布了其首个开源AI模型 VOID,该模型基于 CogVideoX 架构微调,通过独特的四值掩码条件化技术,能精准擦除视频中的物体并修正物理交互效果。

Netflix近期在 Hugging Face 及 GitHub 平台开源了其首个公开AI模型 VOID(Video Object and Interaction Deletion)。该模型专注于视频对象的智能擦除与物理交互修正,基于 CogVideoX 架构微调而成,通过独特的四值掩码条件化技术,能够从视频中移除指定物体并同步处理其引发的所有物理交互效果(例如人物移除后导致吉他掉落)。

模型包含基础推理与优化推理两个阶段,支持通过 CLI 或 Jupyter Notebook 进行推理,要求运行环境配备 40GB 以上显存(如 A100)。

其开源仓库同时提供了完整的数据生成与训练代码,以便社区复现或进行进一步开发。

相关链接:


OpenAI 调整 Codex 计费规则改为按 token 消耗量计价 #7

OpenAI 宣布调整 Codex 计价模式,将原有的按消息估算改为直接挂钩 API token 消耗量。目前该机制适用于 ChatGPT Business 及新 Enterprise 客户,现有的其他用户将在未来几周内逐步迁移。

新机制下,额度消耗取决于输入、缓存输入及输出 token 的混合比例。Fast mode 消耗双倍额度。

OpenAI 近日宣布对其 Codex 工具的计价模式与使用限制进行重大调整,将原有的按消息估算计费全面转向直接与 API token 消耗量挂钩的定价体系。

根据官方帮助中心发布的最新费率卡,此次更新的计费方式目前适用于所有 ChatGPT Business 客户以及新开通的 ChatGPT Enterprise 客户,而现有的 PlusProEnterprise/Edu 用户暂时继续沿用旧版计费规则,并将在未来几周内被逐步迁移至新机制。

在新的基于 token 的计费框架下,实际额度消耗将直接取决于输入、缓存输入及输出 token 的混合比例。其中,Fast mode 会产生双倍的 credits 消耗,而处理高上下文任务将消耗更多额度。

相关链接:


Anthropic 明确禁止第三方工具使用订阅,并提供额度补偿 #8

Anthropic 宣布,自太平洋时间本周五中午起,Claude 订阅额度将不再覆盖 OpenClaw 等第三方工具,用户需开启 extra usage 或使用 API 密钥才能继续接入。

官方称此举是为缓解系统压力,以优先保障核心算力。

作为过渡补偿,AnthropicProMaxTeam 订阅者提供等同于订阅月费的一次性抵扣额,并推出最高 30% 折扣的预购用量包。

Anthropic 宣布自本周五中午起调整 Claude 计费策略。订阅不再支持 OpenClaw 等第三方工具,用户需单独付费开通“extra usage”或使用 API 密钥。官方称此举因第三方工具带来系统压力,需优先保障核心产品算力。

为平稳过渡,该公司向符合条件的 ProMaxTeam 订阅者提供等同于订阅月费的一次性抵扣额,有效期 90 天,并推出最高 30% 折扣的预购用量包及退款渠道。

相关链接:


Claude Code 更新减少 Token 消耗、 Anthropic 回应额度异常 #9

Claude Code 发布更新,通过优化 Edit 工具和提升 MCP 结果上限来减少 token 消耗。

官方建议用户尽快升级至最新版本,避免恢复旧会话,并通过切换至 Sonnet 4.6 或限制上下文窗口来控制成本。

Anthropic 发布了 Claude Code v2.1.91 版本,该版本优化了 Edit 工具的定位锚点,以减少输出 token 消耗,并将 MCP 工具结果大小上限提升至 500K 字符。

Anthropic 员工 Lydia Hallie 回应了近期用户遭遇额度异常消耗的问题,称高峰时段额度有所收紧,且 100 万 token 上下文会话消耗巨大。

官方已修复部分 bug,但不存在多收费情况。她建议用户默认使用 Sonnet 4.6,限制上下文窗口大小,并避免恢复闲置超过一小时的长会话。

相关链接:


小米 MiMo 推出 Token Plan 订阅服务 #10

Xiaomi MiMo 正式推出 Token Plan 订阅套餐,提供 39 元659 元四档方案,采用 Credit 点数按不同倍率计费。

MiMo-V2-Pro 上,当上下文 < 256k 时,消耗倍率为两倍;当上下文为 256k~1M 时,消耗倍率为四倍。

该套餐还支持其他模型,目前首购可享 88 折优惠。

Xiaomi MiMo 团队推出了 Xiaomi MiMo Token Plan 订阅套餐服务。该服务提供 39 元659 元 四档方案,采用统一 Credit 点数体系计费,支持用户按不同 Credit 消耗倍率灵活调用覆盖全模态的 MiMo-V2-ProOmni 及限时免费的 TTS 模型。

其中,调用 MiMo-V2-Pro 时,上下文 < 256k 消耗 2 倍 Credit,上下文 256k~1M 消耗 4 倍 Credit。

目前首购可享 88 折 优惠。

相关链接:


Gemini CLI 发布 v0.36.0,引入 Subagents #11

Gemini CLI 发布 v0.36.0 版本,核心引入 Subagents 功能,用户可通过 @agent 指令调用。

该版本还提升了启动速度与 UI 体验,集成 VSCode 工作区上下文,并新增代码分析与 UI 生成扩展。

Gemini CLI 发布 v0.36.0 版本。官方承认部分 Google AI ProUltra 用户面临响应延迟及高错误率,正积极改善。

该版本核心引入 Subagents 功能,支持本地、远程及并行操作,且在独立上下文窗口运行以节省主会话 token。用户可通过目录配置或 @agent 指令管理,内含协助配置错误的 CLI Help subagent。

此外,更新优化了 Composer UI 与启动速度,支持 VSCode 工作区上下文读取。新增 SonarQubeStitch 扩展,Policy engine 现已允许重定向操作符。

相关链接:


Claude 全面开放 Microsoft 365 连接器 #12

Claude 宣布开放 Microsoft 365 连接器,所有订阅用户均可连接 OutlookOneDriveSharePoint,将邮件与文档直接引入 AI 对话处理。

近日,Claude 官方宣布其 Microsoft 365 connectors 现已全面面向所有 Claude 订阅计划开放。

该功能允许用户将 OutlookOneDriveSharePoint 账户与 Claude 相连,从而将其电子邮件、文档和文件等数据直接引入 AI 对话中进行交互。

目前,所有用户均可通过访问指定配置页面开始使用这项集成服务。

相关链接:


LMArena 暂时下架 Claude Opus 4.6 等三款模型维护平台稳定 #13

LMArena为保障平台长期稳定运行,已暂时下架 Claude Opus 4.6GPT 5.4Gemini 3.1 三款尖端模型。

这些模型目前已无法在该平台的直接对话和侧边对比模式中使用。

Arena 近日发布官方公告,宣布对平台模型阵容进行重要调整。为确保长期稳定运行与可持续的评测服务,该平台决定暂时下架 Claude Opus 4.6GPT 5.4Gemini 3.1 三款尖端模型。

上述模型将不再出现在“直接对话”及“侧边对比”模式的访问名单中。

相关链接:


Anthropic 提应用构建三模式,平衡成本延迟 #14

Anthropic 发文探讨随 Claude 智能进化构建应用的方法,提出三种核心模式平衡延迟与成本。建议优先使用模型熟练的基础工具如 bashtext editor,将编排与上下文管理权交还给模型,并利用优化提示词缓存及声明式工具降低成本、把控安全边界。

Anthropic 官方博客近日发文探讨了在 Claude 智能不断进化的背景下,开发者应如何构建应用以平衡延迟与成本。

官方提出了三种核心模式:首先是“善用其已知”,建议开发者优先使用该模型熟练掌握的基础工具(如 bash tooltext editor tool)来组合构建复杂功能。

其次是“发问‘我可以停止做什么’”,主张将编排、上下文管理和持久化的控制权逐步交还给模型自身。例如,通过提供 代码执行工具 让其自主编排逻辑,利用 skillscontext editing 动态管理上下文,以及通过 compactionmemory folder 让其在长周期任务中自主决定记忆内容。

最后是“谨慎设定边界”,建议通过优化上下文结构以最大化提示词缓存命中率来降低成本,并利用声明式工具严格把控安全、用户体验与可观测性边界。

官方表示,随着模型能力的跃升,开发者应不断审视并移除以往用于弥补模型不足的冗余架构。目前相关的工具与模式已提供至开源的 claude-api skill 供开发者使用。

相关链接:


消息称 Anthropic 收购 Coefficient Bio #15

据报道,Anthropic 收购了生物AI初创企业 Coefficient Bio,交易价值略高于 4亿美元Coefficient Bio 团队将加入 Anthropic 医疗生命科学部门,加速 AI 在生物研究领域的应用。

据媒体报道,Anthropic 通过价值略高于 4 亿美元 的股票交易,收购了受 Dimension 支持的初创企业 Coefficient Bio。该公司成立仅 8 个月,专注于为生物技术研究开发 AI 模型

交易完成后,其团队将加入由 Eric Kauderer-Abrams 领导的 Anthropic Health Care Life Sciences 团队。

相关链接:


Sarvam AI 拟融资 3 亿至 3.5 亿美元,亚马逊英伟达或参投 #16

印度AI初创公司 Sarvam AI 开启 3亿至3.5亿美元 融资,预计由 Bessemer 领投,亚马逊英伟达沙特阿美 参投,估值将达 15亿美元

据媒体报道,印度人工智能初创公司 Sarvam AI 已正式开启新一轮融资,计划筹集 3亿至3.5亿美元 资金。

据悉,该轮融资预计由风投机构 Bessemer Venture Partners 领投,科技巨头 亚马逊英伟达 以及沙特阿美旗下的 Prosperity7 Ventures 均在潜在大股东名单之列。

若该笔融资顺利完成,该公司的估值将达到 15亿至15.5亿美元,相关交易最快有望在未来一周内尘埃落定。


提示:内容由AI辅助创作,可能存在幻觉错误