没有图片也能预训练多模态大模型?在多模态大模型MLLM的研发中行业内长期遵循着一个昂贵的共识没有图文对Image-Text Pairs就没有多模态能力。为了让模型学会看图不得不耗费巨资收集海量图片并为每一张图片生成高质量的图像描述。这种一一对应的强监督数据一直被视为多模态训练的燃料。但来自港科大广州、NUS等机构的最新研究ReVision给出了一个反直觉的结论其实在多模态大模型最依赖大规模图文对数据的预训练阶段Pretraining那些昂贵的配对关系并不是必须的。理论基石为什么“表征对齐”能替代“配对”在深入几何细节之前必须阐明ReVision能够成立的底层约束条件。本文的方法并非适用于任意两个独立的特征提取器而是严格构建在多模态对比学习Multimodal Contrastive Learning所建立的共享表征空间Joint Representation Space这一基础之上。1. 预训练已构建了「语义拓扑一致性」经过海量数据预训练的双塔模型如CLIP、SigLIP通过InfoNCE损失函数已经强制将图像和文本映射到了同一个高维嵌入空间中。在这个空间内虽然不同模态的特征分布尚未完全重合但它们已经具备了高度一致的语义拓扑Semantic Topology。即表达相同语义的视觉嵌入和文本嵌入虽然在空间绝对位置上存在距离但它们与其他语义概念的相对距离关系是保持一致的。2. 模态鸿沟的本质系统性的几何偏移正如论文指出这种未重合的现象并非随机的混乱而是一种系统性偏移Systematically Offset。这意味着图像分布和文本分布在几何上仅仅存在旋转、缩放和平移的偏差。结论既然对比学习已经解决了语义相关性的问题留给我们的仅仅是几何分布的不对齐。因此我们无需再次依赖昂贵的成对数据来重新学习语义对应关系而仅需利用非配对数据的统计信息Statistics of Unpaired Data对文本表征的一阶矩均值和二阶矩协方差进行修正使其分布特性与图像表征对齐即可实现跨模态的互换性。深挖底层模态鸿沟到底长什么样既然明确了只需要解决几何偏移那么这个偏移到底长什么样为什么说不需要配对数据因为研究发现以往的研究对模态鸿沟Modality Gap的理解存在一个巨大的几何误区。要想跨越鸿沟首先得看清它的形状。过去的误解各向同性谬误以往的方法虽然承认图像和文本在对比学习预训练的共享表征空间中存在距离但它们简单地认为这种偏差是均匀的。它们假设鸿沟中的噪音像一个完美的球体各向同性向四面八方均匀扩散。基于这种假设的对齐往往只修正了中心点的偏移却忽略了内部结构的差异导致特征中的细粒度语义被稀释。发现固定框架下的各向异性ReVision团队通过固定框架模态鸿沟理论在微观层面重新解构了这一现象。在一个冻结的参考系中可以将鸿沟分解为两个精准的几何部分稳定的偏差Stable Bias这不仅仅是位置的偏移更包含了一种被动的、由子空间旋转带来的系统性漂移。各向异性的残差Anisotropic Residuals这是最关键的发现。鸿沟内部的波动并不是球形的而是像椭球一样是拉伸的各向异性。在语义子空间里这些波动与梯度方向高度锁定承载着核心的语义信息。在正交子空间里噪音与偏差呈现垂直分布。如果强行用球形噪音去模拟会产生一种幽灵漂移Phantom Drift导致投影到球面后的特征方向发生错误。结论在对比学习预训练的共享表征空间中模态鸿沟不是一团乱麻而是一个有特定长宽比、特定朝向的几何结构。只要能精准复刻这个各向异性的形状就能完美模拟视觉特征。核心突破打破“一一对应”的数据枷锁基于对模态鸿沟Modality Gap形状的精准把控研究团队找到了一条在预训练阶段绕过昂贵配对数据的捷径。核心逻辑用几何对齐的表征训练模型。团队的前提假设非常大胆但符合几何直觉对于大模型而言它并不真正“看”图它看的是特征的分布形状。如果我们能通过数学手段提取出图像数据的几何特征并将这些统计规律赋予纯文本数据那么这段文本在特征空间里就会被伪装成一张图片。前提条件统计替代配对。一旦这个逻辑成立对应的强监督图文对Image-Text Pairs就不再是预训练的必需品。我们只需要满足两个低成本的前提条件1. 海量的非配对文本提供丰富的语义知识。2. 非配对图像的统计分布Statistics of Unpaired Images提供“视觉空间”的几何模具。结论只要掌握了图像的统计分布规律我们就可以把世界上任何一条文本数据在数学上变换成视觉信号喂给模型。这使得能够用廉价的文本数据去模拟昂贵的视觉训练过程。怎么做到的“以形补形”的模态替换研究团队提出了一套名为ReAlign的策略这是一次基于几何原理的数据对齐第一步锚点对齐Anchor Alignment首先解决最基础的位置问题。系统计算出图像数据在空间中的重心将文本数据的中心平移过去。这消除了一阶偏差。第二步迹对齐Trace Alignment这是针对各向异性的关键一步。不用再像传统方法那样注入球形噪音而是根据图像数据的全局迹通过线性仿射变换对文本特征进行拉伸和旋转。这一步确保了文本特征在保留自身语义结构的同时在几何尺度和形状上完美复刻了视觉特征的各向异性残差。第三步质心对齐Centroid Alignment最后为了消除投影到单位超球面时产生的幽灵漂移团队进行了一次显式的二次校正。这确保了特征在最终的流形面上精准对齐。结果经过这一套组合拳一段纯文本的特征在数学属性上已经无限逼近真实的图像特征。整个过程完全不需要真实图片参与更不需要任何人工标注的配对数据。为何“非配对文本”反而更强您可能会问既然目的是看图为什么不直接用图文对非要绕弯子用纯文本这正是ReVision最具颠覆性的发现在数据规模面前数据的配对关系不再重要数据的知识密度才是王道。1.突破数据枯竭的危机高质量的图文对是有限的且清洗成本极高。但非配对的文本是近乎无限的。互联网上的每一本书、每一篇论文现在都可以通过ReVision转化为训练多模态模型的燃料。2.知识深度的降维打击传统的图文对往往包含有限的语义信息。而该研究使用的非配对长文本可以是一整段包含丰富语义的文本不受显式的图片约束。当模型通过这些长文本来学习视觉概念时它学到的不仅仅是图像的特征更是背后复杂的世界知识和推理逻辑。3.极致的性价比实验数据令人振奋使用200万条纯文本经过ReAlign几何变换预训练出的模型其性能竟然超过了使用100万条真实图文对预训练的基线模型。更关键的是前者的预训练数据成本仅为后者的74%。结语ReVision的出现为多模态大模型的训练打开了一扇新的大门。它证明了我们不需要被配对数据卡住脖子。只要看透了模态鸿沟的几何形状利用好统计学的魔法海量的纯文本资源就是最好的视觉教材。不需要昂贵的标注不需要一一对应的束缚只要有文本AI就能学会看懂这个世界。学习资源推荐如果你想更深入地学习大模型以下是一些非常有价值的学习资源这些资源将帮助你从不同角度学习大模型提升你的实践能力。一、全套AGI大模型学习路线AI大模型时代的学习之旅从基础到前沿掌握人工智能的核心技能因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取二、640套AI大模型报告合集这套包含640份报告的合集涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师还是对AI大模型感兴趣的爱好者这套报告合集都将为您提供宝贵的信息和启示因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取三、AI大模型经典PDF籍随着人工智能技术的飞速发展AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型如GPT-3、BERT、XLNet等以其强大的语言理解和生成能力正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取四、AI大模型商业化落地方案作为普通人入局大模型时代需要持续学习和实践不断提高自己的技能和认知水平同时也需要有责任感和伦理意识为人工智能的健康发展贡献力量。