← 返回首页

Ai前哨战

2026-03-26

AI 早报 2026-03-26 概览 要闻 谷歌推出 Lyria 3 Pro 音乐模型,最长生成三分钟专业音轨 ↗ #1 模型发布 美团龙猫团队开源 LongCat-Next 离散自回归多模态模型 ↗ #2 北京大学联合字节跳动发布 Helios,开源视频生成模型 ↗ #3 开发生态 Google 明确 Gemini CLI 使用权限,仍支持ACP、A2A…

2026年3月26日星期四 01:21

AI 早报 2026-03-26

概览

要闻

  • 谷歌推出 Lyria 3 Pro 音乐模型,最长生成三分钟专业音轨 #1

模型发布

  • 美团龙猫团队开源 LongCat-Next 离散自回归多模态模型 #2
  • 北京大学联合字节跳动发布 Helios,开源视频生成模型 #3

开发生态

  • Google 明确 Gemini CLI 使用权限,仍支持ACP、A2A及Headless使用 #4
  • GitHub 更新 Copilot 政策,个人版默认数据用于模型训练 #5
  • Figma 宣布向 AI agents 开放 Figma Canvas #6
  • 谷歌推出 Vibe Coding XR 将自然语言转化为 WebXR 应用 #7
  • Mozilla 推出 cq 项目实现 Agent 知识共享标准 #8

产品应用

  • Anthropic 宣布 Claude 移动端新增了工作相关功能 #9
  • OpenClaw 发布新版增强兼容性并支持 Microsoft Teams 与 Slack 平台 #10
  • Nous Research 发布 Hermes Agent v0.4.0 #11
  • MiniMax 开源 Office Skills,覆盖四大办公文档格式 #12
  • 阿里云宣布 JVSClaw 全面开放,取消邀请码限制新增 5GB 存储 #13

技术与洞察

  • Google Research 发布 TurboQuant 大模型 KV 缓存降 6 倍 #14
  • OpenAI 披露 Model Spec 制定逻辑与评估套件 #15
  • ARC 发布 ARC-AGI-3 基准,所有先模型得分均不足 1% #16

行业动态

  • OpenAI 节省算力研发下代旗舰模型,Sam Altman 转攻筹资建数据中心 #17
  • OpenAI 推出公开安全漏洞赏金计划聚焦 AI 滥用风险 #18
  • 英特尔推出 Arc Pro B70 等显卡,售价 949 美元配 32GB 显存 #19

前瞻与传闻

  • 苹果据报重构 Siri,将推出独立应用 #20

谷歌推出 Lyria 3 Pro 音乐模型,最长生成三分钟专业音轨 #1

Google 发布了音乐生成模型 Lyria 3 系列的两款新模型,包含可生成 3 分钟音乐的 Pro 版和针对速度和高并发优化的 Clip 版。开发者现可通过 Gemini APIGoogle AI Studio 付费使用,目前该模型已集成至 Vertex AIGoogle VidsProducerAIGemini App 等产品。

Google 近期面向全球开发者、企业和创作者推出了其最新的音乐生成模型 Lyria 3 系列,该系列目前包含两个面向开发者的版本:官方称为主打全长歌曲生成、最长可创建约 3分钟 专业级音轨的 Lyria 3 Pro,以及针对速度和高并发请求优化、生成 30秒 高质量片段的 Lyria 3 Clip

上述两个模型现已在 Gemini API 中以付费预览模式提供,并在 Google AI Studio 中开放测试。除了提供逼真的人声、多语言及多流派支持外,该系列模型引入了节拍条件设定、时间对齐歌词以及多模态图生音等精准控制功能,该模型还支持从文本、图像或视频提示词生成带歌词的音轨。

在产品端,Lyria 3 Pro 正陆续接入 Vertex AI(面向企业的付费预览)、Google Vids(面向 Workspace 客户及 AI Pro & Ultra 订阅者)、Gemini app(面向付费订阅者)以及 ProducerAI

在责任与安全方面,官方强调该模型基于 YouTube 和 Google 有权使用的数据训练,不会模仿艺术家,且所有生成的音轨均嵌入 SynthID 数字水印以供识别验证。

相关链接:


美团龙猫团队开源 LongCat-Next 离散自回归多模态模型 #2

美团龙猫团队开源了总参数量为 68.5B 的原生多模态模型 LongCat-Next。该模型通过引入 DiNA 范式,将文本、视觉和音频统一在单一自回归目标下,在多模态基准测试中表现强劲,并具备高级语音理解和声音克隆能力。

美团龙猫团队开源了 LongCat-Next,这是一款总参数 68.5B、激活参数 3B 的原生多模态模型。该模型基于 LongCat-Flash-Lite MoE 骨干网络,引入了 DiNA(离散原生自回归范式),将文本、视觉和音频统一在单一自回归目标下,并提出 dNaViT 作为任意分辨率的统一视觉接口。

该模型在多项多模态基准测试中表现强劲,在 28 倍压缩比 下维持生成质量,尤其在文本渲染方面表现突出。同时,它具备高级语音理解、低延迟语音对话及可定制声音克隆能力。

相关链接:


北京大学联合字节跳动发布 Helios,开源视频生成模型 #3

北京大学联合字节跳动发布并开源了 14B 参数视频生成模型 Helios,该模型无需依赖传统的防漂移策略即可生成长视频,并原生支持文生视频、图生视频和视频生视频任务。

由北京大学联合字节跳动开发的视频生成模型 Helios 正式发布并开源代码与权重。该模型采用 Cross DiT 架构与 UMT5 文本编码器,无需依赖常规的长视频防漂移策略或标准视频加速技术,即可生成分钟级高质量视频,并原生支持文生视频、图生视频和视频生视频任务。

官方开源了 Helios-BaseHelios-MidHelios-Distilled 三个变体,均可在 HuggingFaceModelScope 下载,项目基于 Apache 2.0 许可证。

相关链接:


Google 明确 Gemini CLI 使用权限,仍支持ACP、A2A及Headless使用 #4

Gemini CLI 近期发布声明明确支持通过 ACPA2A 协议及 Headless 模式的使用,但严禁利用其 OAuth 界面为第三方应用认证。同时再次明确订阅用户中仅限 AI ProUltra 用户可使用 Pro 模型。

Gemini CLI 官方针对近期变更发布说明,明确用户可继续通过 ACPA2A 协议、本地或远程终端及 Headless 模式使用该工具,但严禁利用其 OAuth 登录界面为第三方应用认证。

官方同时明确了 Gemini Pro 模型的访问权限,仅限 Google AI ProUltra 订阅用户、Google Cloud 企业客户以及使用 AI StudioVertex AI API 密钥的用户访问,并限制免费层用户使用该模型。

相关链接:


GitHub 更新 Copilot 政策,个人版默认数据用于模型训练 #5

GitHub 宣布自 4月24日 起调整策略,Copilot FreeCopilot ProCopilot Pro+ 用户的交互数据将默认用于 AI模型训练,但可前往设置中的 Privacy 选项手动关闭数据共享。

GitHub 官方宣布更新 GitHub Copilot 交互数据使用规定,自 4月24日 起,Copilot Free、Pro 和 Pro+ 用户在使用过程中产生的交互数据将默认被用于训练和改进其 AI 模型。用户可通过设置中的“Privacy”选项 opt out,且此前已关闭该选项的用户的偏好将被保留。而 Copilot Business 和 Enterprise 用户不受此规定影响。

相关链接:


Figma 宣布向 AI agents 开放 Figma Canvas #6

Figma 近日宣布开放 Figma canvas 给 AI agents,支持通过 Figma MCP 服务器直接读写文件,实现了代码与设计的双向流转。

Figma 近日宣布开放 canvas 给 AI agents,基于 Figma MCP server,agents 可直接写入文件。其引入以 markdown 编写的 skills,为 agents 补充团队决策等上下文。

新工具 use_figma 负责基于组件编辑,与 generate_figma_design 互补。

官方称该能力 beta 期间免费,未来将作为按使用量计费的付费 API。

当前已支持 Claude CodeCodex 等多个客户端。

相关链接:


谷歌推出 Vibe Coding XR 将自然语言转化为 WebXR 应用 #7

Google Research 发布了 Vibe Coding XR,结合 Gemini Canvas 与开源 XR Blocks 框架,让用户仅凭自然语言就能在 60 秒 内生成具备物理感知的 WebXR 应用。

Google Research 推出 Vibe Coding XR,结合 Gemini Canvas 与开源 XR Blocks 框架。该工作流能将自然语言提示在 60 秒 内转化为具备物理感知的交互式 WebXR 应用,支持 Android XR 头显或桌面模拟测试。

其利用 Gemini 长上下文推理处理空间逻辑,基于 WebXR 等技术构建。

该在线演示及开源框架已面向公众开放,团队将在 ACM CHI 2026 展台演示。

相关链接:


Mozilla 推出 cq 项目实现 Agent 知识共享标准 #8

Mozilla 推出开源项目 cq,定位为共享 Agent 学习的开放标准。cq 允许 Agent 持久化、查询并共享集体知识,避免重复发现相同故障。

Mozilla 推出开源项目 cq,定位为共享 Agent 学习的开放标准。该项目旨在解决 AI 决策调用废弃 API 及不同 Agent 重复排错浪费算力的痛点,被媒体类比为“AI 专用 Stack Overflow”。

cq 允许 Agent 持久化、查询并共享集体知识,从而在处理新任务前获取正确策略,避免重复发现相同故障。

该项目支持 Local-only 和 Team sync 两种模式,基于 MCP 协议构建,由 Local MCP Server 和可选的 Docker 容器组成,目前处于探索性阶段并在 GitHub 上开源。

相关链接:


Anthropic 宣布 Claude 移动端新增了工作相关功能 #9

Anthropic 宣布 Claude 移动端新增了工作相关功能,现已支持在手机上直接浏览 Figma 设计、创建 Canva 幻灯片以及查看 Amplitude 仪表盘。

Anthropic 官方宣布,Claude 的工作工具现已正式登陆移动端。用户可通过官方提供的 claude.com/download 链接下载体验,利用该功能在手机上直接浏览 Figma 设计、创建 Canva 幻灯片以及查看 Amplitude 仪表板。

相关链接:


OpenClaw 发布新版增强兼容性并支持 Microsoft Teams 与 Slack 平台 #10

OpenClaw 正式发布 2026.3.24 版本,新版本深度优化了 OpenAI API 接口,并引入了原生的 Microsoft Teams 支持以及 Slack 交互式回复按钮。此外,用户可在升级后的 Control UI 中高效管理工具与技能。

OpenClaw 近日正式发布 2026.3.24 版本,此次更新重点增强了 OpenAI API 兼容性,引入了原生的 Microsoft Teams 支持、Slack 交互式回复按钮、智能 Discord 自动线程命名,并全面升级了 Control UI 中的 Skill 与工具管理体验。

此外,该版本将受支持的 Node 22 最低版本降至 22.14+,同时修复了涉及沙箱安全、多平台网关路由、媒体出站及会话唤醒等多个核心问题。

相关链接:


Nous Research 发布 Hermes Agent v0.4.0 #11

Nous Research 更新了 Hermes Agent,引入了后台自我改进功能并增强了 MCP server 管理。该版本现可作为兼容 OpenAI 的 API 服务器运行。

Nous Research 正式发布了 Hermes Agent v0.4.0 版本。此次更新引入了后台自我改进功能、支持新的消息平台与提供商,并增强了 MCP server 管理能力。

在连接性方面,Hermes 现在可以作为兼容 OpenAI 的 API 服务器运行,提供 /v1/chat/completions/v1/responses 端点。后者支持通过 previous_response_id 进行有状态的链式调用,允许 Open WebUILobeChatLibreChatChatBox 等前端直接连接,以实现完整的 Agent 功能。

相关链接:


MiniMax 开源 Office Skills,覆盖四大办公文档格式 #12

MiniMax 宣布开源其生产级办公文档技能 Office Skills,用户仅需一句话指令,相关技能即可完成从内容组织到最终输出的全流程。

MiniMax 宣布开源其生产级办公文档技能“Office Skills”,涵盖针对 WordExcelPDFPPT 四种格式处理的代码及自进化评测机。

相关技能能解决 Agent 在处理 Office 文档时常见的“生成即损坏”痛点,如公式静默转为静态数字、编辑后格式混乱或高级功能(如数据透视表)丢失等,使生成的文档能够满足真实交付标准。

该开源项目还包含一套 “Execute → Evaluate → Fix” 自动化评测体系,旨在通过持续迭代修复失败样例,驱动 Skills 在结构与样式上实现自我进化。

相关链接:


阿里云宣布 JVSClaw 全面开放,取消邀请码限制新增 5GB 存储 #13

阿里云 JVSClaw 现已取消邀请码限制,全面开放,用户可直接注册使用。

此次更新还在手机 App 新增了语音输入入口,并支持一键接入 微博龙虾助手

阿里云宣布 JVSClaw 正式全面开放,取消了此前的邀请码限制,允许用户直接注册使用。

此次更新中,JVSClaw 手机 App 新增了语音输入入口,JVS 文件空间提供了 5GB 专属存储空间,并实现了对微博龙虾助手的一键接入支持。

相关链接:


Google Research 发布 TurboQuant 大模型 KV 缓存降 6 倍 #14

Google Research 发布了名为 TurboQuant 的高级量化算法。该方法无需训练或微调,通过结合 PolarQuantQJL 技术,在实现 3-bit 量化且零精度损失的同时,将 KV 内存占用降低 6 倍,并在 H100 GPU 上实现了最高 8 倍 的计算加速。

Google Research 近日发布 TurboQuant,并为一组以理论为基础的高级量化算法中的核心压缩方法,用于大规模压缩大语言模型与向量搜索引擎中的高维向量。根据官方说法,该方法面向两个关键场景:一是缓解 LLMkey-value cache 瓶颈,二是提升向量搜索的构建与查询效率。

其核心做法是把 PolarQuant 作为主压缩阶段,再用 QJL 对残余误差做 1 bit 校正,从而在消除传统向量量化额外内存开销的同时,维持高精度。

Google Research 称,TurboQuant 可在不训练、不微调的情况下,把 KV cache 量化到 3 bit,并在长上下文基准上实现零精度损失;在官方测试中,其 KV 内存占用至少降低 6 倍4-bit TurboQuantH100 GPU 上对 32-bit 未量化 key 的 attention logits 计算可实现最高 8 倍加速

官方还表示,该方法在向量搜索中相较 PQRabbiQ 等基线取得更高 recall,并适用于语义搜索等大规模检索场景。

相关链接:


OpenAI 披露 Model Spec 制定逻辑与评估套件 #15

OpenAI官方博客披露了 Model Spec 模型行为框架的制定逻辑,该框架确立了“指挥链”机制,明确划分了不可逾越的安全硬规则与开发者可覆盖的默认值,并同步发布了 Model Spec Evals 评估套件。

OpenAI 近日发布官方博文,系统说明其 Model Spec 的设计思路、结构、编写方法、落地方式与后续演进路径。OpenAI 称,Model Spec 是其关于模型行为的正式框架,用来明确模型应如何遵循指令、处理冲突、尊重用户自由并在广泛场景下安全运行。

根据官方说法,这套规范与 Preparedness FrameworkAI resilience 等工作互补,目标是在逐步部署更强 AI 系统的同时,让行为边界、权衡逻辑与修改机制对用户、开发者、研究者、政策制定者和公众保持可读、可检视、可争论。

目前,Model Spec 本体、公开仓库以及配套的 Model Spec Evals 均已对外提供。

相关链接:


ARC 发布 ARC-AGI-3 基准,所有先模型得分均不足 1% #16

ARC Prize 正式发布了 ARC-AGI-3 基准测试,旨在通过交互式环境评估模型的 Agentic Intelligence。目前所有顶级 AI 模型的得分均低于 1%

ARC Prize 正式发布了 ARC-AGI-3 基准测试,该基准通过交互式推理环境评估模型的 agentic intelligence。

而目前所有顶级 AI 推理模型得分均低于 1%。

具体得分显示,Google Gemini 3.1 Pro0.37% 领先,OpenAI GPT-5.40.26%Anthropic Claude Opus 4.60.25%xAI Grok 4.20%

相关链接:


OpenAI 节省算力研发下代旗舰模型,Sam Altman 转攻筹资建数据中心 #17

据报道,OpenAI 正式关停 Sora 应用以节省算力,集中资源开发代号为 SPUD 且已完成初步开发的下一代旗舰模型。Sora 团队重心将转向世界模型及机器人领域。

同时,Sam Altman 不再直接监管安全团队,未来将专注于融资及大规模数据中心建设以应对市场竞争。

据报道,OpenAI 关停 Sora 应用并非出于产品层面的考量,而是一项资源分配决定。员工称该应用消耗了大量算力,公司将把稀缺算力转向其下一代旗舰模型。

与此同时,Sora 研究团队未来的重心将转向世界模型及机器人领域的相关用例。

此外,OpenAI CEO Sam Altman 日前向员工宣布,已不再直接监管公司的安全与安保团队,并确认完成了代号为 SPUD 的下一代重大 AI 模型的初步开发。

未来,他的工作重心将转向筹集资金、管理供应链以及以前所未有的规模建设数据中心,以应对与 AnthropicGoogle 等竞争对手日益加剧的竞争。

相关链接:


OpenAI 推出公开安全漏洞赏金计划聚焦 AI 滥用风险 #18

OpenAI 推出 Safety Bug Bounty program,旨在识别全线产品中的 AI 滥用风险,重点聚焦 Agentic Risks、专有信息泄露及账户平台完整性三大场景。

OpenAI近日推出了一项公开的 Safety Bug Bounty program,旨在识别其全线产品中的AI滥用与安全风险,防范可能导致实质性伤害的滥用行为。该项目作为其现有 Security Bug Bounty program 的补充,接受不符合传统安全漏洞标准但构成重大滥用和安全风险的问题。

该项目主要聚焦于 Agentic Risks 包括 MCPOpenAI Proprietary Information 以及 Account and Platform Integrity(如绕过反自动化控制、操纵账户信任信号、规避账户限制等)三大AI特定安全场景。

有意参与的研究人员可通过 Bugcrowd 平台提交漏洞。

相关链接:


英特尔推出 Arc Pro B70 等显卡,售价 949 美元配 32GB 显存 #19

Intel 推出了 Arc Pro B70Arc Pro B65 两款工作站显卡,均配备 32GB 显存。旗舰款 B70 提供 367 TOPS 算力,售价 949 美元B65 型号则将于 4 月中旬 通过 AIB 伙伴销售。

Intel 推出 Arc Pro B70Arc Pro B65 工作站 GPU,均搭载 32GB GDDR6 显存及 BMG-G31 核心,面向本地 AI 推理等应用。

旗舰 B70 拥有 32 个 Xe 核心,官方称算力最高 367 TOPS,带宽 608 GB/s,起售价 949 美元,已开售。

B65 配备 20 个 Xe 核心,算力最高 197 TOPS,计划 4 月中旬 通过 AIB 伙伴销售。

相关链接:


苹果据报重构 Siri,将推出独立应用 #20

据报道,苹果正在对 Siri 进行重构,计划在即将到来的 WWDC 上推出基于 iOS 27 的全新AI智能体。

新版 Siri 将拥有支持连续对话和文件分析功能的独立应用。

据彭博社援引知情人士报道,苹果公司正在对 Siri 进行根本性重构,计划将其从传统语音指令工具转向深度整合全系统应用的AI智能体。

该重构包含推出一款支持历史对话记录、文件上传分析及连续交互的独立 Siri 应用,并在操作系统层级引入 Ask SiriWrite with Siri 等系统级入口。

此外,苹果公司正在测试以 Siri 取代 Spotlight,实现本地内容与互联网查询的统一,并采用“液态玻璃”设计语言将 Siri 嵌入灵动岛区域。

上述新版 Siri(代号 Campo)计划在即将到来的 WWDC 上作为 iOS 27macOS 27 的一部分亮相。


提示:内容由AI辅助创作,可能存在幻觉错误