全球 AI 核心动态内参

每日综述
历史检索
监测周期:加载中...

今日重点

产品动态 Google
Gemini App 上线交互式可视化功能,支持在聊天界面实时生成 3D 模型
Google 为 Gemini App 引入全新交互能力,用户可直接生成并操作可缩放的 3D 模型与动态模拟图表。该功能基于 Pro 模型实现,通过可视化指令集提升了 AI 在教育演示、工程制图等专业场景下的交互深度。
技术迭代 Anthropic
Anthropic 推出 Advisor Tool,通过大小模型级联架构提升 2.7% 评测表现并降本 11.9%
Claude Platform 上线 API 级组件 Advisor Tool,支持将 Opus 作为“顾问”配合 Sonnet 或 Haiku “执行者”使用。该策略允许低成本模型在遇到复杂决策时一键唤醒高阶模型寻求指导,而非传统的分编排模式。在 SWE-bench Multilingual 测试中,Sonnet 4.6 配合 Opus 顾问使得分提升 2.7% 且任务成本降低 11.9%,Haiku 配合顾问在 BrowseComp 上的得分则实现翻倍。
技术迭代 Hermes
开源智能体 Hermes Agent GitHub 狂揽四万星,凭借自我进化闭环挑战商业产品
Nous Research 发布的开源智能体 Hermes Agent 凭借记忆沉淀、技能内生与数据回流三大核心机制走红。该系统通过 MEMORY.md 与技能文件实现跨会话长期记忆,能将任务轨迹自动转化为结构化技能包并反哺下一代模型训练。相较于配置繁琐且安全性存疑的 OpenClaw,Hermes 提供了私有常驻、自主进化的 Agent 范式,目前 GitHub 星标已突破 40,000,成为 AI OS 赛道的新物种。
商业动态 阿里巴巴
阿里正式认领“欢乐马”视频模型,系郑波团队打造并计划逐步商业化
针对外界猜测,阿里巴巴官方正式确认近期爆火的“欢乐马(Happy Horse)”模型隶属于阿里。该模型凭借对复杂物理规律(如液体流动、毛发纹理)的精准模拟,已被视为阿里进攻 AI 影视创作与短视频生成的战略武器。
技术迭代 阿里巴巴
通义实验室开源 VimRAG 框架,利用动态记忆图实现图文视频全模态知识库统一检索
阿里巴巴通义实验室正式开源 VimRAG 框架,专门解决制造等企业在 PDF、CAD 图纸及视频混合场景下的 RAG 落地难题。该框架摒弃线性上下文拼接,引入动态有向无环图(DAG)构建结构化记忆,并配合视觉能量分配策略与图引导策略优化(GGPO),在 Qwen3-VL-8B 模型上实现 50.1% 的平均准确率。VimRAG 有效解决了多模态检索中的状态盲区与重复死循环,目前已逐步集成至阿里云百炼知识库。

OpenAI

产品动态
ChatGPT $100/月 Pro 方案正式上线,针对高负载编码场景进行容量升级
OpenAI 正式通过社交媒体确认全新的 $100/月 订阅计划。该计划针对高阶开发者提供 5 倍于 Plus 的 Codex 使用额度,并在 6 月前开展 10 倍用量的限时促销,旨在通过差异化定价策略收割高价值存量用户。
产品动态
Codex 插件支持 Build macOS Apps,开发者可一键生成 SwiftUI 原生应用
OpenAI 开发者工具集新增 macOS 应用构建支持。该插件打通了代码生成与本地运行环境,支持开发者在对话界面直接完成 SwiftUI 应用的编译、打包与预览,大幅降低了原生桌面软件的开发门槛。
商业动态
OpenAI 数据中心负责人相继离职,Stargate 万亿算力项目面临战略重组
OpenAI 负责 Stargate 数据中心建设的核心领导层近期出现人事变动。受基础设施建设成本与电力供应挑战影响,该重组预示着 OpenAI 可能会调整其全球算力扩张策略,直接影响后续超级模型的训练进度。
商业动态
佛罗里达州检察长开启针对 OpenAI 的调查,涉及数据安全与社会影响
佛罗里达州官方宣布对 OpenAI 展开正式审计,重点审查 ChatGPT 的数据采集合规性及其对公众安全的潜在威胁。此次调查恰逢 OpenAI 潜在 IPO 窗口期,可能对公司的估值及资本市场表现产生直接干扰。
商业动态
OpenAI 暂停英国数据中心建设项目,监管成本与电力瓶颈成主因
受制于英国日益严苛的环境保护法案及高昂的电网接入成本,OpenAI 宣布暂停其在英的大型数据中心投资计划。这反映了全球 AI 基础设施建设正面临严重的能源供应与地方行政干预的双重压力。
商业动态
OpenAI 告知投资者其算力规模远超 Anthropic,试图在融资竞争中筑墙
在最新的融资沟通过程中,OpenAI 明确向投资者展示了其算力基座的领先数据,声称其对 H100 等顶级计算资源的掌控力显著强于 Anthropic。该策略旨在通过“算力霸权”事实,吸引更多战略资本向 OpenAI 倾斜。
商业动态
OpenAI 预测 2030 年 AI 广告收入将达 1020 亿美元,明确商业化核心路径
OpenAI 在给投资者的最新预测中指出,到 2030 年,由生成式 AI 驱动的精准广告业务将创造千亿美元价值。该数据强化了 OpenAI 转型为综合性互联网巨头的信心,广告或将成为其除订阅费外的最大收入支柱。

Google

产品动态
Gemini App 上线交互式可视化功能,支持在聊天界面实时生成 3D 模型
Google 为 Gemini App 引入全新交互能力,用户可直接生成并操作可缩放的 3D 模型与动态模拟图表。该功能基于 Pro 模型实现,通过可视化指令集提升了 AI 在教育演示、工程制图等专业场景下的交互深度。
技术迭代
Google 宣布在数据中心采用英特尔芯片,深化 AI 基础设施层级合作
Google 确认在其云数据中心部署英特尔定制化 AI 处理芯片。通过强化与硬件厂商的底层协作,Google 旨在提升 Cloud 平台的 AI 推理能效比,为企业级客户提供更具成本优势的算力租赁方案。
技术迭代
Google Research 推出 ConvApparel 工具,量化并弥补用户模拟器中的现实性缺口
Google 发布 ConvApparel 评估框架,专门用于衡量用户模拟器与真实人类行为之间的表现差异。通过量化指标指导模型训练,该工具可显著提升对话 AI 的拟人化程度,缩小合成数据与真实场景的分布偏差。
产品动态
Google 向免费用户开放 Lyria 3 音乐模型,每日可生成 5 首 3 分钟歌曲
Google 宣布下放顶级音乐生成能力。Gemini 免费用户现在每天可以创作 5 首完整歌曲;即使超过限额,仍可生成 30 秒短片,或通过升级获取更高配额,此举旨在快速抢占 AI 音频创作市场份额。
产品动态
谷歌发布 Gemma 4 与 OpenClaw 适配教程,实现三步部署本地零 Token Agent
Google 官方发布技术指南,支持用户通过 Ollama 将 Gemma 4(推荐 26B A4B 版本)作为后端接入 OpenClaw 框架。该方案通过本地算力替代 API 调用,规避了 Provider 配置与 Token 费用,极大简化了本地 Agent 的部署链路。硬件参考显示,运行推荐版本需 M4 Pro 48GB 或同等规格机器;尽管本地模型在长上下文处理上仍有短板,但在简报、转录等简单任务中具备极高性价比,且需注意小模型在提示注入攻击下的安全性风险。
商业动态
Google Cloud Next '26 将于 4 月拉斯维加斯开幕,聚焦 Agentic AI 与 TPU v8 算力革新
谷歌宣布将于 4 月 22 日举办年度大会,重点展示 AI 从对话向自主工作流智能体(Agentic AI)的演进。大会预期发布新一代 TPU v8 架构及 ADK 2.0 协议,深化 Gemini 在 Google Workspace 中的企业级多模态集成。目前 Meta 已签署数十亿美元协议租用其 TPU 资源,Anthropic 亦锁定 3.5GW 的 TPU 算力,此举标志着谷歌正通过全栈 AI 能力与 OCS 光路交换技术,构建以自研芯片为核心的企业级 AI 基础设施生态。

Anthropic

技术迭代
Anthropic 推出 Advisor Tool,通过大小模型级联架构提升 2.7% 评测表现并降本 11.9%
Claude Platform 上线 API 级组件 Advisor Tool,支持将 Opus 作为“顾问”配合 Sonnet 或 Haiku “执行者”使用。该策略允许低成本模型在遇到复杂决策时一键唤醒高阶模型寻求指导,而非传统的分编排模式。在 SWE-bench Multilingual 测试中,Sonnet 4.6 配合 Opus 顾问使得分提升 2.7% 且任务成本降低 11.9%,Haiku 配合顾问在 BrowseComp 上的得分则实现翻倍。
技术迭代
埃隆·马斯克披露 Claude 参数规模,Opus 达 5T 且 Sonnet 为 1T
埃隆·马斯克在 X 平台披露 xAI 训练计划时,意外透露 Claude 系列模型参数量,称 Sonnet 为 1T、Opus 为 5T。行业分析显示,Claude Opus 4.6 激活参数约为 93-105B,而未发布的 Mythos 模型参数量传言达 10T。马斯克的爆料与近期基于 Token 吞吐量的逆向工程推测基本吻合,揭示了 Anthropic 在超大规模 MoE 架构上的算力布局。
产品动态
Claude Cowork 正式版上线并推出企业管控套件,强化组织级部署治理
Anthropic 宣布 Claude Cowork 结束预览面向全量付费用户开放。针对企业场景推出角色访问控制(RBAC)、团队预算限制及集成 OpenTelemetry 的监控功能,支持管理员通过 Analytics API 追踪 Cowork 活跃度。产品新增 Zoom 插件,通过 MCP 协议打通会议摘要与 Agent 工作流,助力非技术职能部门实现自动化任务闭环。
产品动态
Claude Code 更新 Setup Wizard 插件,实现第三方云服务全自动化配置
针对开发者工作流,Claude Code 推出了 Setup Wizard 与 Monitor Tool。前者支持一键自动配置云端环境,后者则通过后台脚本动态唤醒 Agent 进行日志监控,有效避免了手动轮询带来的 Token 浪费。
商业动态
美国政府官员警告银行 CEO,Mythos 模型可能引发金融系统性风险
Bessent 与 Powell 再次向银行高管强调了 Anthropic Mythos 模型的复杂性所带来的不确定性。监管方担心高度自主的 AI 模型可能误导金融决策或造成隐私泄露,要求银行在部署该模型前进行极度严苛的压力测试。
商业动态
消息称 Anthropic 正在筹备自有芯片设计团队,挑战英伟达统治地位
路透社报道证实,Anthropic 正在积极评估构建自有 AI 芯片的技术路径。通过硬件自研,Anthropic 试图解决大规模分布式训练中的通信瓶颈,并大幅压低长期运营成本,直接对标 OpenAI 的算力自给计划。

Meta

产品动态
Meta AI 应用跻身 App Store 排行榜第五,Muse Spark 视觉功能驱动下载激增
随着 Muse Spark 创意生成工具的集成,Meta AI 应用在 App Store 的排名迅速爬升至第五位。该趋势显示出 C 端用户对于“强视觉交互型”AI 功能的高度敏感,Meta 通过社交生态成功实现了 AI 应用的规模化渗透。
商业动态
Meta 重新分配顶级工程师至 AI 工具部门,加速模型性能调优与迭代
Meta 内部进行工程人才大调动,将多名核心工程师转入新组建的 AI 建模工具团队。此举体现了 Meta 战略重心的偏移,即从广撒网的应用开发转向深度的模型底层架构优化,以保持 Llama 体系的竞争力。
商业动态
Meta 扩大与 CoreWeave 云计算合作,签署 350 亿美元长期算力协议
Meta 宣布将与 AI 云算力巨头 CoreWeave 的合作规模扩大至 350 亿美元,协议期覆盖至 2032 年。这笔巨额投入旨在确保 Meta 在未来十年拥有全球领先的 GPU 集群支持,为训练更超大规模的模型提供算力兜底。

字节跳动

技术迭代
字节 Seed 联合北大发布 In-Place TTT 技术,实现大模型推理时“原地”参数更新
字节跳动与北京大学联合发表论文,提出 Seed 架构。该技术允许模型在推理阶段直接调整参数权重以适应特定任务,无需额外的层增加或繁琐的微调流程,大幅提升了 AI 在长尾应用场景下的适配效率。
数据洞察
3 月 AI 创作榜:即梦 Web 端访问量近 2000 万领跑,LiblibAI 新品 LibTV 挺进前五
量子位智库最新月报显示,在 C 端 AI 创作领域,字节跳动旗下的即梦凭借强大的移动端生态,其访问数据遥遥领先。此外,专注于 Stable Diffusion 生态的 LiblibAI 凭借丰富的内容社区,在新入榜应用中排名第一。

阿里巴巴

商业动态
阿里正式认领“欢乐马”视频模型,系郑波团队打造并计划逐步商业化
针对外界猜测,阿里巴巴官方正式确认近期爆火的“欢乐马(Happy Horse)”模型隶属于阿里。该模型凭借对复杂物理规律(如液体流动、毛发纹理)的精准模拟,已被视为阿里进攻 AI 影视创作与短视频生成的战略武器。
技术迭代
通义实验室开源 VimRAG 框架,利用动态记忆图实现图文视频全模态知识库统一检索
阿里巴巴通义实验室正式开源 VimRAG 框架,专门解决制造等企业在 PDF、CAD 图纸及视频混合场景下的 RAG 落地难题。该框架摒弃线性上下文拼接,引入动态有向无环图(DAG)构建结构化记忆,并配合视觉能量分配策略与图引导策略优化(GGPO),在 Qwen3-VL-8B 模型上实现 50.1% 的平均准确率。VimRAG 有效解决了多模态检索中的状态盲区与重复死循环,目前已逐步集成至阿里云百炼知识库。
产品动态
千问 AI 眼镜 S1 开启预约,通义大模型深度集成穿戴式智能硬件
阿里巴巴官方宣布其首款 AI 原生眼镜 S1 启动预订。该硬件深度集成了通义千问的视觉与听觉感知能力,旨在通过便携式终端提供实时翻译、环境分析等交互体验,探索 AI 硬件化的 C 端路径。
产品动态
某历史策略游戏成功接入千问模型,AI 驱动 NPC 实现生态化自主交互
阿里展示了游戏领域应用成果,通过接入千问大模型,游戏内的 NPC 具备了复杂的自主决策与动态对白能力。这一应用不仅提升了游戏的沉浸感,也验证了大模型在数字娱乐内容生成中的工程化可行性。
数据洞察
EmbodiedCLUE 发布具身智能桌面评测,国内模型 Qwen3-VL 综合评分与中文适配度双领先
EmbodiedCLUE 针对 RoboCasa-GR1-Tabletop 场景发布 6 款公开模型评测,涵盖任务成功率、步长、奖励及耗时。结果显示,Qwen3-VL-OFT 与 Qwen3-VL-GR00T 位居第一梯队,不仅在英文基础任务上表现均衡,且在原生中文直传与 Embedding 路由转换两项测试中展现出极强适配性。相比之下,GR00T-N1.5/1.6 系列在任务一致性与中文理解上存在显著差距。评测强调,“完成性 > 效率 > 过程质量”是当前具身智能核心评价逻辑,国内模型已实现多维度领先。
商业动态
阿里领投生数科技 20 亿元 B 轮融资,加速 Vidu 与 Motus 通用世界模型布局
生数科技宣布完成近 20 亿元 B 轮融资,由阿里云领投,中网投等战略投资。资金将用于夯实以 U-ViT 为底座的基座世界模型(Foundation World Model),推进 Vidu 视频生成模型在阿里云百炼的 MaaS 落地,并深化 Motus 具身智能大脑在物理世界中的零样本泛化能力。生数科技通过打通“理解、生成、行动”技术闭环,Motus 成功率较 Pi0.5 提升 40%,旨在构建连接数字与物理世界的通用 AGI 基础设施。

腾讯

技术迭代
腾讯混元联合 Robotics X 发布 HY-Embodied-0.5 系列模型,2B 端侧模型斩获 16 项评测最佳
腾讯发布专为机器人设计的 2B 具身智能模型。在涵盖抓取、避障、语义理解等 22 项核心评测中,该模型在 16 项指标上刷新行业记录,展现了腾讯在具身智能底层架构与多模态感知融合上的技术深度。
产品动态
腾讯云一个月内两度提价,AI 算力及底层基础设施刊例价统一上调 5%
受制于全球范围内 GPU 采购成本与能源支出的双重上涨,腾讯云宣布再次上调云服务售价。此番调价旨在对冲 AI 算力扩建带来的财务压力,也预示着云算力市场正告别“价格战”,进入成本敏感期。

百度

技术迭代
百度 23 篇论文入选 ACL 2026,全面领跑国产模型底层架构技术创新
百度在国际顶尖学术会议 ACL 2026 中斩获 23 篇论文,涵盖长序列建模、高效参数微调等前沿领域。该数据客观反映了百度在国产大模型底层研发上的持续高投入,巩固了文心一言在学术圈的技术领军地位。

其余重点关注公司

技术迭代 MiniMax
MiniMax 发布新一代音乐模型 Music 2.6,首包响应时间缩短至 20 秒以内
MiniMax 正式发布 Music 2.6,深度重构底层生成架构,将首包延迟优化至 20 秒内。该模型强化了乐器的横向时间演进感与中低频表现力,支持人声在 Lo-fi 或爵士风格下的“非精确”自然呼吸感。同步开源 minimax-music-gen 等三款 Music Skills,旨在通过 API 为 AI Agent 注入自动化音乐创作、翻唱及个性化歌单生成能力,实现从单一音频输出向 Agent 原生音乐生态的跨越。
产品动态 MiniMax
MiniMax 发布 MMX-CLI 命令行工具,支持在任意 Agent 中原生调用多模态模型
MiniMax 针对极客用户推出 CLI 工具,实现对旗下文字、图像、视频、语音全线模型的一键调用。该工具降低了多模态能力的集成成本,旨在吸引更多开发者基于 MiniMax 底座构建原生 AI 应用。
技术迭代 智谱
GLM-5.1 登顶 LMArena 代码榜开源第一,具备 8 小时级持续任务处理能力
智谱 AI 发布的 GLM-5.1 在全球权威评测平台 LMArena 的 Code Arena 专项榜单中位列全球第三、开源第一。该模型在长程任务(Long-Horizon Task)上取得显著突破,成功实现 8 小时从零构建 Linux 桌面、655 次迭代优化向量数据库及 1000 轮工具调用优化。在 METR 榜单评估标准下,GLM-5.1 成为全球除 Claude Opus 4.6 外唯一达到 8 小时级持续工作能力的开源模型,确立了其在复杂 Agent 任务中的领先地位。
商业动态 xAI
埃隆·马斯克旗下 xAI 起诉科罗拉多州,指控 AI 反歧视法违宪
xAI 针对科罗拉多州通过的 AI 算法透明度及反歧视法案提起诉讼。xAI 认为此类法律过度干预了私营企业的算法自主权,阻碍了技术创新,该诉讼或将引发全美关于 AI 立法边界的深度辩论。

行业新闻

产品动态 Perplexity
Perplexity 推出个人理财助手功能,通过 Plaid 接口实现金融数据穿透
AI 搜索独角兽 Perplexity 宣布集成 Plaid 支付数据,上线 Personal Finance 功能。用户可直接在对话框中查询个人账务并获取理财建议,标志着 AI 搜索正加速从“信息获取”向“金融决策执行”跨越。
技术迭代 OpenClaw
OpenClaw 发布 2026.4.9 版本,重构记忆与梦境系统并支持 REM 回填
开源 Agent 框架 OpenClaw 迎来重大更新。本次版本引入支持历史路径的 REM 回填通道,并提供结构化日记视图。同时新增并行评估报告功能,显著加速了开发者在不同模型版本间进行行为比对的效率。
商业动态 英伟达
英伟达支持的光通信厂商 Lumentum 订单排至 2028 年,AI 硬件需求持续爆发
受英伟达及各大模型厂商算力扩建需求带动,Lumentum 宣布其 AI 相关光模块订单已排产至 2028 年。这一数据客观反映了全球 AI 基础设施投资的极高确定性,底层硬件供需缺口依然显著。
技术迭代 Hermes
开源智能体 Hermes Agent GitHub 狂揽四万星,凭借自我进化闭环挑战商业产品
Nous Research 发布的开源智能体 Hermes Agent 凭借记忆沉淀、技能内生与数据回流三大核心机制走红。该系统通过 MEMORY.md 与技能文件实现跨会话长期记忆,能将任务轨迹自动转化为结构化技能包并反哺下一代模型训练。相较于配置繁琐且安全性存疑的 OpenClaw,Hermes 提供了私有常驻、自主进化的 Agent 范式,目前 GitHub 星标已突破 40,000,成为 AI OS 赛道的新物种。
技术迭代 其他
Overworld 发布 Waypoint 1.5 世界模型,可在 RTX 3070 实现 60 帧实时渲染
Overworld 升级实时扩散模型 Waypoint 1.5,训练数据量提升百倍。该模型采用创新的双层架构,首次在主流消费级显卡上实现了 720p/60fps 的实时物理环境生成,确立了 AI 原生游戏环境构建的新标准。
技术迭代 其他
OneStory 模型入选 CVPR 2026,通过“选择性记忆”解决视频镜头一致性难题
科研团队提出 OneStory 视频生成方案,旨在解决长视频生成中的断片现象。通过引入选择性记忆机制,模型能确跨镜头场景下的角色与环境始终如一,为 AI 辅助长片内容创作提供了核心技术支撑。
产品动态 其他
无问芯穹发布龙虾盒子 InfiniClaw Box,通过三段式脱敏解决 OpenClaw 隐私痛点
无问芯穹正式推出 InfiniClaw Box,首创“本地脱敏-云端处理-本地回填”的三段式安全推理方案。该产品支持文本、语音、视频全模态数据脱敏,确保敏感信息不出域,同时通过无问芯穹 Token 工厂调用云端 GLM-5、Kimi-K2.5 等大模型。通过 NPU/GPU 算子融合优化,核心算子在端侧实现 10%-40% 加速,内置 80 余个专业 Skills,并与 AMD、爱芯元智等生态伙伴达成芯片及终端适配合作。
数据洞察 宇树科技
具身智能 26Q1 季报:宇树人形机器人营收占比超 50%,毛利率达 63%
晚点播客发布 26Q1 具身智能分析,披露宇树科技 G1 机器人成功占据科研市场“事实标准”,人形业务收入占比从 23 年不足 2% 飙升至 25 年超 50%,毛利率高达 63%。调研指出行业正从两指夹爪向 22 自由度高仿生灵巧手演进,英伟达 WAM 世界动作模型通过视频预测打破 VLA 范式瓶颈。专家认为,由于硬件一致性与供应链门槛,硬件公司领先优势可维持 12-24 个月,未来人形机器人市场将高度收敛于少数头部玩家。