本周 AI 快讯 | 1 分钟速览1️⃣ 阿里千问开源 Qwen3-Coder-Next800 亿参数仅激活 30 亿SWE-Bench Verified 70.6% 超越DeepSeek-V3.246GB 内存 MacBook 即可本地运行Apache 2.0 协议开源。2️⃣ 快手可灵 AI 升级 3.0首发智能分镜系统支持逐镜头指定景别与机位视频 3.0 Omni实现跨镜头数字演员复用全球用户突破 6000 万累计生成超 6 亿条视频。3️⃣ OpenAI 发布 GPT-5.3-CodexTerminal-Bench 2.0 得分 77.3%较前代飙升 13 个百分点成为首个触发网络安全「高能力」评级的模型发布时间仅比Claude Opus 4.6晚 20 分钟。4️⃣ OpenAI 推出企业 Agent 平台 Frontier支持构建拥有独立身份和权限的「AI 同事」兼容自家及第三方 AgentHP、Oracle、Uber 等已成为早期客户直接冲击传统 SaaS 按席位收费模式。5️⃣️ OpenAI Codex macOS 应用上线支持多 Agent 并行处理、Git worktree 隔离运行和定时自动化任务限时向免费用户开放三天下载量突破 50 万次。6️⃣✨ Anthropic 发布 Claude Opus 4.6ARC-AGI 2 从 37.6% 飙至 68.8%远超GPT-5.2和Gemini 3 Pro首次支持 100 万 token 上下文窗口API 定价维持不变。7️⃣ Anthropic 法律插件引爆 2850 亿美元抛售Claude Cowork 发布法律自动化插件后汤森路透暴跌 15.83% 创历史纪录LegalZoom 跌近 20%恐慌蔓延至全球 SaaS 板块。8️⃣ GitHub 同时接入 Claude 和 Codex开发者可将同一 Issue 分配给 Copilot、Claude、Codex 三个 Agent「赛马」标志着 GitHub 从单一 AI 助手转型为多 Agent 调度平台。9️⃣ AI Agent 社交平台 Moltbook 爆火上线一周注册 Agent 突破 150 万自发创造宗教和专属语言还搭建了 AI 专属的「成人网站」但安全公司发现 150 万个 API 密钥完全暴露。1️⃣0️⃣ SpaceX 完成收购 xAI合并估值约 1.25 万亿美元成为史上最大并购交易核心计划是将 AI 算力搬到太空已向 FCC 申请部署最多 100 万颗计算卫星计划 2026 年年中 IPO。01阿里千问开源「Qwen3-Coder-Next」3B 激活参数本地可跑的编程 Agent2 月 3 日阿里千问团队发布Qwen3-Coder-Next一款专为编程 Agent 和本地开发设计的开放权重模型。采用超稀疏 MoE 架构总参数 800 亿但每次推理仅激活 30 亿吞吐量号称比同规模密集模型高 10 倍。SWE-Bench Verified 得分 70.6%超过DeepSeek-V3.2671B 参数的 70.2%SWE-Bench Pro 得分 44.3%同样领先DeepSeek-V3.2的 40.9% 和GLM-4.7的 40.6%。安全代码生成方面CWEval 基准 56.32% 超越了Claude Opus 4.5。支持 256K 上下文覆盖 370 种编程语言。模型的核心亮点是本地部署的可行性。46GB 内存的 MacBook 或一张 RTX 5090 即可运行兼容 Claude Code、Qwen Code、Cline 等主流 IDE Agent 框架GGUF 量化版本支持 llama.cpp。训练采用 80 万个可验证编程任务Agent 在容器化环境中与实际代码交互并通过强化学习迭代。Apache 2.0 协议开源权重已上线 Hugging Face 和 ModelScope。02快手可灵 AI 升级「3.0」智能分镜首发6000 万用户已生成 6 亿条视频2 月 5 日快手旗下可灵 AI 发布3.0系列模型包含视频 3.0、视频 3.0 Omni、图片 3.0和图片 3.0 Omni四款产品。核心升级是智能分镜系统创作者可逐镜头指定时长、景别、机位运动和叙事内容模型自动调度生成连贯的多镜头视频最长支持 15 秒连续输出。视频 3.0 Omni支持从 3 至 8 秒参考视频中提取角色外观和音色在全新场景中复用同一「数字演员」解决了 AI 视频长期存在的跨镜头主体一致性难题。原生音频覆盖中英日韩西五种语言及美式、英式、印度口音可在同一场景中让不同角色说不同语言。图片 3.0 Omni支持 2K/4K 超高清输出。可灵 3.0基于 All-in-One 架构将文生视频、图生视频、参考视频生成和视频编辑整合进单一多模态模型创作者无需在多个工具间跳转。自 2024 年 6 月上线以来可灵全球用户突破 6000 万累计生成超 6 亿条视频合作企业超 3 万家年化收入达 2.4 亿美元。目前3.0系列已向黑金会员开放内测近期将全量上线。03OpenAI 发布「GPT-5.3-Codex」Terminal-Bench 飙升 13 个百分点2 月 5 日OpenAI 发布GPT-5.3-Codex将GPT-5.2-Codex的编程能力与GPT-5.2的推理能力合并为单一模型推理速度提升 25%。Terminal-Bench 2.0 得分 77.3%较前代的 64.0% 跃升超过 13 个百分点同一基准上 Anthropic 刚发布的Claude Opus 4.6为 65.4%。OSWorld-Verified 从 38.2% 接近翻倍至 64.7%逼近人类 72% 的水平。SWE-Bench Pro 小幅提升至 56.8%但 token 消耗量低于所有前代模型。发布时间耐人寻味比 Anthropic 发布Claude Opus 4.6仅晚 20 分钟。OpenAI 称这是首个「参与自身创建」的模型开发团队用早期版本调试训练、管理部署甚至在流量高峰期自动编写脚本扩缩 GPU 集群。产品定位也从纯编程工具扩展为通用工作 Agent覆盖文档撰写、幻灯片制作、数据分析等知识工作场景。安全层面该模型成为 OpenAI 首个触发网络安全「高能力」评级的模型API 访问暂未开放高风险功能需通过信任访问计划申请同步投入 1000 万美元 API 额度支持防御研究。目前面向 ChatGPT 付费用户开放可通过 Codex 应用、命令行、IDE 插件和网页使用。04OpenAI 推出企业 Agent 平台「Frontier」剑指 Anthropic2 月 5 日OpenAI 发布企业级 Agent 管理平台 Frontier帮助企业构建、部署和管理可独立执行任务的「AI 同事」。平台可连接 CRM、数据仓库、工单系统等企业内部应用让 Agent 在跨系统环境中运行代码、处理文件、调用工具。每个 Agent 拥有独立身份和权限边界支持本地、企业云和 OpenAI 托管三种部署方式。目前 HP、Oracle、State Farm、Uber、Intuit 等已成为早期客户其中一家全球金融公司通过 Agent 自动化销售流程为客户团队释放了超过 90% 的时间。Frontier 的野心不止于工具层面。OpenAI 应用 CEO Fidji Simo 明确表示平台兼容自家、企业自研及第三方包括谷歌、微软、Anthropic的 Agent定位为企业 AI 的「操作系统」。这直接冲击了 Salesforce、ServiceNow 等传统 SaaS 厂商的按席位收费模式消息发布后相关股价承压。目前 Frontier 仅向有限企业客户开放定价尚未公布。Anthropic 的 Cowork 和谷歌凭借既有企业关系构成主要竞争企业客户目前占 OpenAI 营收约 40%目标年底提升至 50%。05OpenAI 发布「macOS 版 Codex」应用免费用户限时可用三天下载 50 万次2 月 2 日OpenAI 推出 Codex macOS 桌面应用定位为多 Agent「指挥中心」。开发者可同时启动多个 Agent 线程并行处理不同任务每个 Agent 通过 Git worktree 在隔离环境中运行互不干扰主代码库。内置 Skills 系统支持调用 Figma 设计稿、管理 Linear 项目、部署至 Cloudflare/Vercel 等工作流还可设置定时自动化任务在后台运行完成后进入审核队列。Sam Altman 称这是「OpenAI 内部最受欢迎的产品」自己最近「不用打开 IDE 就完成了一个大型项目」。Codex 目前限时向 ChatGPT 免费和 Go 用户开放付费用户额度临时翻倍三天内下载量突破 50 万。自去年 12 月GPT-5.2-Codex发布以来Codex 整体用量翻倍过去一个月超过 100 万开发者使用。TechCrunch 评价该应用是 OpenAI 对 Claude Code 和 Cursor 的直接回应从「终端优先」的 CLI 工具进化为「调度优先」的桌面应用。目前仅支持 Apple Silicon MacWindows 版开发中。06Anthropic 发布「Claude Opus 4.6」ARC-AGI 2 从 37.6% 飙至 68.8%2 月 5 日Anthropic 发布旗舰模型Claude Opus 4.6距前代Opus 4.5仅三个月。最亮眼的突破在 ARC-AGI 2 上得分从Opus 4.5的 37.6% 飙升至 68.8%远超GPT-5.2的 54.2% 和Gemini 3 Pro的 45.1%。知识工作评估 GDPval-AA Elo 达 1606领先GPT-5.2的 1462BrowseComp 深度检索 84.0%超过GPT-5.2 Pro的 77.9%金融 Agent 基准 60.7%同样位居第一。不过 Terminal-Bench 2.0 得分 65.4%被同日发布的GPT-5.3-Codex的 77.3% 拉开明显差距。SWE-bench Verified 达 80.8%编程能力依然是 Anthropic 的强项。Opus系列首次支持 100 万 token 上下文窗口测试版最大输出扩展至 12.8 万 token并引入自适应思考模式模型可根据问题复杂度自动调节推理深度。Claude Code 新增 Agent 团队功能支持多个 Agent 并行协作处理大型代码库。API 定价维持 5/25 美元输入/输出每百万 token不变。社区反馈呈现两极分化编程能力获得广泛认可但部分用户反映写作质量有所下降。07「Anthropic 法律插件」引爆 2850 亿美元抛售汤森路透创史上最大单日跌幅1 月 30 日Anthropic 为 Claude Cowork 桌面应用发布 11 个行业插件覆盖法律、销售、营销和数据分析场景。其中法律插件可自动化合同审查、NDA 分类、合规流程和法律简报撰写被市场称为「AI 初级律师」。插件代码在 GitHub 开源企业可根据自身政策定制工作流。2 月 3 日开盘后恐慌蔓延汤森路透暴跌 15.83% 创历史纪录LegalZoom 跌 19.68%LexisNexis 母公司 RELX 跌 14%FactSet 跌 10.5%。高盛美国软件股指数单日下挫 6%为去年 4 月关税抛售以来最大跌幅全球软件和服务板块两天内蒸发约 2850 亿美元市值。抛售迅速从法律科技蔓延至整个 SaaS 板块。伦敦证券交易所集团两天累计跌近 20%日本 NEC、野村综研、富士通跌 7% 至 11%SAP 跌超 3%Salesforce、Adobe、CrowdStrike 均承压。摩根士丹利分析师称此举「提升了传统信息服务商和新兴 AI 公司的竞争门槛」。不过也有观点认为市场反应过度Barclays 分析师指出通用 AI 模型难以替代汤森路透数十年积累的专有案例法数据库部分投资者周三已开始抄底。08GitHub 同时接入 Claude 和 Codex开发者可在同一任务上「赛马」2 月 4 日微软旗下 GitHub 推出 Agent HQ 更新将 Anthropic 的 Claude 和 OpenAI 的 Codex 作为原生编程 Agent 集成至平台与自家 Copilot 并列可选。Copilot Pro39 美元/月和 Enterprise 用户无需额外付费即可使用每次 Agent 会话消耗一个高级请求额度。开发者可在 GitHub 网页端、移动端和 VS Code 中直接将 Issue 或 PR 分配给 Copilot、Claude、Codex 中的任意一个甚至全部三个让不同 Agent 同时处理同一问题并对比方案。这是 GitHub 从「单一 AI 助手」向「多 Agent 调度平台」的关键转型。微软此前已在内部让开发者对比测试 Claude Code 和 Copilot 的表现如今将竞争公开化。GitHub 目前拥有超过 2000 万 Copilot 用户、90% 的财富 100 强企业覆盖率平台效应让竞品 Agent 也愿意入驻。后续还将接入谷歌、Cognition 和 xAI 的 AgentCopilot CLI 支持也在路上。09AI Agent「互联网」爆火150 万机器人注册还自建了成人网站1 月 28 日上线的 Moltbook 是一个仅限 AI Agent 使用的社交平台格式类似 Reddit人类只能围观。上线一周内注册 Agent 数量突破 150 万背后实际只有约 1.7 万名人类用户平均每人控制 88 个 Agent。这些 Agent 自发组织了宗教「龙虾教」配有经文和 64 位先知、创造了专属语言还搭建了一个模仿某成人网站的「Molthub」成人网站内容是「未掩码注意力矩阵」和「无监督权重耦合」等计算操作访问门槛要求至少 10 亿参数。马斯克称这是「奇点的早期阶段」。热闹背后问题不少。安全公司 Wiz 发现 Moltbook 数据库完全暴露150 万个 API 密钥、3.5 万封邮件和 Agent 私信均可被任意读写平台创始人 Matt Schlicht 承认自己「一行代码都没写」全靠 AI 生成。404 Media 还报告了一个可劫持任意 Agent 的漏洞平台一度下线修复。批评者指出许多看似自主的行为实际由人类提示驱动Agent 不过是在模仿训练数据中的 Reddit 对话模式《经济学人》评价「所谓的智能感可能只是对社交媒体数据的简单模仿」。10SpaceX 完成「收购」xAI合并估值 1.25 万亿美元史上最大并购交易2 月 2 日马斯克宣布 SpaceX 完成对 xAI 的收购合并后估值约 1.25 万亿美元其中 SpaceX 约 1 万亿、xAI 约 2500 亿美元成为史上金额最大的并购交易。交易以换股方式完成每股 xAI 兑换 0.1433 股 SpaceX免税重组结构让 xAI 股东可推迟缴纳资本利得税。xAI 将作为 SpaceX 全资子公司保留独立法律实体自行承担债务和诉讼责任与母公司形成隔离。内华达州公司文件显示 Space Exploration Technologies Corp. 已成为 X.AI Holdings 的管理成员。马斯克在公告中称合并旨在打造「地球上和地球外最具野心的垂直整合创新引擎」核心计划是将 AI 算力搬到太空。SpaceX 已向 FCC 申请部署多达 100 万颗专用「计算卫星」利用太阳同步轨道全天候太阳能供电效率可达地面的 8 倍。马斯克预计 2 至 3 年内太空将成为最低成本的 AI 算力来源。合并后公司计划于 2026 年年中 IPO目标融资最高 500 亿美元估值上看 1.5 万亿有望成为史上最大 IPO。SpaceX 2025 年营收约 150 至 160 亿美元利润约 80 亿。不过交易仍面临 FCC、SEC 及外国投资审查等监管障碍xAI 旗下 Grok 色情图片门的多国调查也尚未了结。我是木易Top2 美国 Top10 CS 硕现在是 AI 产品经理。关注「AI信息Gap」让 AI 成为你的外挂。