ICLR 2026 | Uni-X:用“两端分离,中间共享”架构化解纯自回归多模态模型的梯度冲突
点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入我们关于统一多模态生成与理解模型Unified Multimodal Models, UMMs架构探索的论文 Uni-X 被 ICLR 2026 接收。在该工作中我们在最简洁的自回归Autoregressive, AR范式下尝试给“文本”和“视觉”模态之间的互相冲突问题一个优雅的解决方案。简单来说我们在模型的浅层和深层设置了不同分支来专门处理文本或者视觉模态。论文https://openreview.net/forum?idIJLIYpCkwz代码https://github.com/CURRENTF/Uni-X权重https://huggingface.co/JitaiHao/Uni-X-3B1Motivation模态间梯度冲突将视觉输入通过向量量化Vector Quantization转化为离散 Token从而将文本和视觉统一为单一序列进行预测是目前构建 AR UMMs 的主流思路 。然而通过实验分析我们发现使用一个完全共享参数的标准Transformer 在处理这种多模态输入时会遭遇严重的“梯度冲突”Gradient Conflict。为了精确描述这一现象我们定义了层级的梯度冲突指标。通过计算纯文本数据梯度与图文对数据梯度之间的余弦相似度:并减去模型在混合模态数据分布下的基线梯度相似度:我们得到梯度冲突如下冲突来源底层表示的信息熵差异为什么会出现这种现象我们尝试从信息论角度提供一个解释VQ得到的视觉序列与于自然语言的差异极大 。我们计算了基于 N-gram 的条件熵结果表明视觉 Token 序列的条件熵显著高于英语、德语或中文等自然语言。这种极高的信息熵意味着视觉序列的预测难度更大需要模型建模更长程、空间纠缠更深的依赖关系。视觉 Token 序列的条件熵显著高于英语、德语或中文等自然语言2Uni-X (Two-End-Separated, Middle-Shared)基于上述底层逻辑我们不再一味地引入外部视觉语义编码器或复杂的任务分支结构而是让模型架构的物理设计去贴合不同模态的固有特性 。我们提出了 Uni-X一种“两端分离、中间共享”的 X 型架构 arch.pngUni-X 架构与标准共享 Transformer 的对比。X 型结构通过两端分离避免了极端的梯度冲突同时依靠共享核心实现了特征对齐。分离层Separated Layers 将 Transformer 的初始 N 层和最后 M 层拆分为平行的模态专用分支 。这保证了在早期特征提取和最终 Token 投射阶段文本和视觉信息能够被独立处理彻底隔绝底层分布差异带来的优化冲突 。共享层Shared Layers 中间层保持参数共享专注于高维语义的跨模态融合与推理。和 Encoder/Decoder 的关系我们的模型设计一定程度上也受到了 Encoder/Decoder 这种经典架构的启发我们希望分离层能分别起到 Encoder和Decoder 的作用由于时间和资源限制我们没有进行相关分析实验。一个有趣的探索是直接拿出浅分离层作为双塔模型能不能有一个还不错的检索性能理论计算效率的额外增益除了优化上的优势由于分离层中视觉和文本处于严格隔离的计算流对于长度为 n 的序列其中视觉 Token 长 a文本 Token 长 b自注意力机制的计算复杂度从全共享的 O((ab)^{2}) 下降到了与 a^{2}b^{2} 成正比 。这意味着在同等参数规模下Uni-X 的训练和推理吞吐量具有更高的理论上限。3实验结果我们在一致训练预算下进行实验对比Uni-X 的 3B 参数版本展现出了极强的 Scaling 能力与任务竞争力 图像生成与理解 在未引入额外语义 Encoder 的前提下模型在 GenEval 基准测试中达到了 82 分的优异成绩匹配甚至超越了一些 7B 规模的自回归 UMMs 。图像编辑Zero-Shot 泛化 在仅使用约 90k 图像编辑数据微调的情况下Uni-X 凭借中间共享层积累的强大语义对齐能力在 ImgEdit 榜单上的综合表现与使用了更多数据和更大参数量的 Bagel 相当。Future Work不依赖外部视觉特征提取器CLIP确实在一定程度上限制了极致的多模态理解上限 。但我们计划进一步探索未来能否进一步移除 VQ-VAE 这一用来 tokenization 的中间件如果让 Uni-X 架构中“X”的分叉部分直接承担起 Tokenizer 与 Detokenizer 的映射功能我们或许能实现真正意义上的 Pixel-to-Pixel、端到端的原生多模态统一。往期精彩文章推荐关于AI TIMEAI TIME源起于2019年旨在发扬科学思辨精神邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索加强思想碰撞链接全球AI学者、行业专家和爱好者希望以辩论的形式探讨人工智能和人类未来之间的矛盾探索人工智能领域的未来。迄今为止AI TIME已经邀请了2000多位海内外讲者举办了逾800场活动超1000万人次观看。我知道你在看提出观点表达想法欢迎留言点击阅读原文观看作者论文

相关新闻

基于 Vue 的毕业设计项目实战:从选题到部署的全链路技术指南

基于 Vue 的毕业设计项目实战:从选题到部署的全链路技术指南

作为一名刚刚完成毕业设计的前端“过来人”,我深知做一个Vue项目从零到上线有多折腾。选题新颖但代码一塌糊涂、功能做了一大堆却难以维护、本地跑得好好的部署就报错……这些都是我踩过的坑。今天,我就把自己从选题到部署的完整实战经验梳理成文&#x…

2026/7/5 0:43:23 阅读更多 →
MoviePilot:NAS媒体库自动化管理的革新方案

MoviePilot:NAS媒体库自动化管理的革新方案

MoviePilot:NAS媒体库自动化管理的革新方案 【免费下载链接】MoviePilot NAS媒体库自动化管理工具 项目地址: https://gitcode.com/gh_mirrors/mo/MoviePilot 价值定位:重新定义媒体管理效率 你是否曾遇到过这样的困境:NAS中存储的影…

2026/7/5 0:43:02 阅读更多 →
Hotkey Detective:让Windows快捷键冲突成为历史

Hotkey Detective:让Windows快捷键冲突成为历史

Hotkey Detective:让Windows快捷键冲突成为历史 【免费下载链接】hotkey-detective A small program for investigating stolen hotkeys under Windows 8 项目地址: https://gitcode.com/gh_mirrors/ho/hotkey-detective 问题认知:当键盘变成战场…

2026/5/17 8:38:43 阅读更多 →

最新新闻

告别Selenium弹窗噩梦:Playwright实现无头浏览器文件自动下载实战

告别Selenium弹窗噩梦:Playwright实现无头浏览器文件自动下载实战

1. 项目概述:为什么我们要告别Selenium?如果你做过Web自动化测试或者数据抓取,尤其是涉及到文件下载的场景,那你大概率经历过“弹窗噩梦”。浏览器原生的“另存为”对话框,就像一堵无法逾越的高墙,横亘在你…

2026/7/5 0:39:55 阅读更多 →
从光学到产品:护眼钢化膜的技术原理与实现路径深度解析(以悟赫德 scinique 技术为例)

从光学到产品:护眼钢化膜的技术原理与实现路径深度解析(以悟赫德 scinique 技术为例)

1. 引言:为什么我们需要 "护眼" 的手机膜?随着 OLED 屏幕在智能手机中的全面普及,以及用户日均用屏时长的不断增加(据统计,2026 年国内用户日均手机使用时长已超过 6.5 小时),视疲劳正…

2026/7/5 0:39:55 阅读更多 →
ASM330LHH与PIC18F25K80的工业级运动跟踪系统设计

ASM330LHH与PIC18F25K80的工业级运动跟踪系统设计

1. 从传感器到系统:ASM330LHH与PIC18F25K80的硬件搭档当我在工业自动化项目中第一次接触到ASM330LHH这颗6DoF惯性测量单元(IMU)时,立刻被它的性能参数所震撼。作为意法半导体MEMS传感器家族的重要成员,它在一个3x2.5x0.83mm的封装内集成了三轴…

2026/7/5 0:35:54 阅读更多 →
Python3与Java Hutool实现SM2国密算法跨语言加解密互通方案

Python3与Java Hutool实现SM2国密算法跨语言加解密互通方案

1. 项目概述与核心价值最近在做一个需要跨语言数据交换的项目,后端是Java,用到了Hutool这个“瑞士军刀”库来处理SM2国密算法的加解密,而另一个数据处理服务是用Python3写的。这就引出了一个很实际的问题:Java这边用Hutool加密的数…

2026/7/5 0:33:53 阅读更多 →
电商App签名逆向实战:从x-sign/x-miniwua看移动端安全防线

电商App签名逆向实战:从x-sign/x-miniwua看移动端安全防线

1. 项目概述:为什么我们要研究x-sign/x-miniwua? 如果你做过电商数据相关的爬虫或者自动化工具,那么“签名”这个词对你来说一定不陌生。它就像一道门禁,横亘在你和服务器数据之间。而某宝的 x-sign 和 x-miniwua &#xff0c…

2026/7/5 0:27:49 阅读更多 →
AI绘画提示词编写与优化全指南

AI绘画提示词编写与优化全指南

1. AI绘画提示词(Prompt)编写核心逻辑解析AI绘画的核心在于将自然语言描述转化为视觉元素,这个过程本质上是一种跨模态的信息转换。理解这个转换机制是编写优质Prompt的基础。现代AI绘画模型如Stable Diffusion、MidJourney都建立在扩散模型(Diffusion Model)架构上…

2026/7/5 0:25:48 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻