点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入我们关于统一多模态生成与理解模型Unified Multimodal Models, UMMs架构探索的论文 Uni-X 被 ICLR 2026 接收。在该工作中我们在最简洁的自回归Autoregressive, AR范式下尝试给“文本”和“视觉”模态之间的互相冲突问题一个优雅的解决方案。简单来说我们在模型的浅层和深层设置了不同分支来专门处理文本或者视觉模态。论文https://openreview.net/forum?idIJLIYpCkwz代码https://github.com/CURRENTF/Uni-X权重https://huggingface.co/JitaiHao/Uni-X-3B1Motivation模态间梯度冲突将视觉输入通过向量量化Vector Quantization转化为离散 Token从而将文本和视觉统一为单一序列进行预测是目前构建 AR UMMs 的主流思路 。然而通过实验分析我们发现使用一个完全共享参数的标准Transformer 在处理这种多模态输入时会遭遇严重的“梯度冲突”Gradient Conflict。为了精确描述这一现象我们定义了层级的梯度冲突指标。通过计算纯文本数据梯度与图文对数据梯度之间的余弦相似度:并减去模型在混合模态数据分布下的基线梯度相似度:我们得到梯度冲突如下冲突来源底层表示的信息熵差异为什么会出现这种现象我们尝试从信息论角度提供一个解释VQ得到的视觉序列与于自然语言的差异极大 。我们计算了基于 N-gram 的条件熵结果表明视觉 Token 序列的条件熵显著高于英语、德语或中文等自然语言。这种极高的信息熵意味着视觉序列的预测难度更大需要模型建模更长程、空间纠缠更深的依赖关系。视觉 Token 序列的条件熵显著高于英语、德语或中文等自然语言2Uni-X (Two-End-Separated, Middle-Shared)基于上述底层逻辑我们不再一味地引入外部视觉语义编码器或复杂的任务分支结构而是让模型架构的物理设计去贴合不同模态的固有特性 。我们提出了 Uni-X一种“两端分离、中间共享”的 X 型架构 arch.pngUni-X 架构与标准共享 Transformer 的对比。X 型结构通过两端分离避免了极端的梯度冲突同时依靠共享核心实现了特征对齐。分离层Separated Layers 将 Transformer 的初始 N 层和最后 M 层拆分为平行的模态专用分支 。这保证了在早期特征提取和最终 Token 投射阶段文本和视觉信息能够被独立处理彻底隔绝底层分布差异带来的优化冲突 。共享层Shared Layers 中间层保持参数共享专注于高维语义的跨模态融合与推理。和 Encoder/Decoder 的关系我们的模型设计一定程度上也受到了 Encoder/Decoder 这种经典架构的启发我们希望分离层能分别起到 Encoder和Decoder 的作用由于时间和资源限制我们没有进行相关分析实验。一个有趣的探索是直接拿出浅分离层作为双塔模型能不能有一个还不错的检索性能理论计算效率的额外增益除了优化上的优势由于分离层中视觉和文本处于严格隔离的计算流对于长度为 n 的序列其中视觉 Token 长 a文本 Token 长 b自注意力机制的计算复杂度从全共享的 O((ab)^{2}) 下降到了与 a^{2}b^{2} 成正比 。这意味着在同等参数规模下Uni-X 的训练和推理吞吐量具有更高的理论上限。3实验结果我们在一致训练预算下进行实验对比Uni-X 的 3B 参数版本展现出了极强的 Scaling 能力与任务竞争力 图像生成与理解 在未引入额外语义 Encoder 的前提下模型在 GenEval 基准测试中达到了 82 分的优异成绩匹配甚至超越了一些 7B 规模的自回归 UMMs 。图像编辑Zero-Shot 泛化 在仅使用约 90k 图像编辑数据微调的情况下Uni-X 凭借中间共享层积累的强大语义对齐能力在 ImgEdit 榜单上的综合表现与使用了更多数据和更大参数量的 Bagel 相当。Future Work不依赖外部视觉特征提取器CLIP确实在一定程度上限制了极致的多模态理解上限 。但我们计划进一步探索未来能否进一步移除 VQ-VAE 这一用来 tokenization 的中间件如果让 Uni-X 架构中“X”的分叉部分直接承担起 Tokenizer 与 Detokenizer 的映射功能我们或许能实现真正意义上的 Pixel-to-Pixel、端到端的原生多模态统一。往期精彩文章推荐关于AI TIMEAI TIME源起于2019年旨在发扬科学思辨精神邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索加强思想碰撞链接全球AI学者、行业专家和爱好者希望以辩论的形式探讨人工智能和人类未来之间的矛盾探索人工智能领域的未来。迄今为止AI TIME已经邀请了2000多位海内外讲者举办了逾800场活动超1000万人次观看。我知道你在看提出观点表达想法欢迎留言点击阅读原文观看作者论文