本文提出SKG2Data方法通过构建空间知识图谱指导多模态数据生成解决多模态大模型在空间理解方面的系统性短板。该方法先建立包含实体、位置和关系的结构化空间知识图谱再指导图像生成和文本描述确保合成数据符合真实世界的空间逻辑。实验证明该方法能有效提升模型的空间感知与推理能力同时保持通用能力稳定。论文题目Spatial Knowledge Graph-Guided Multimodal Synthesis本文作者薛逸达浙江大学、毕祯浙江大学、杨锦楠南京理工大学、楼俊钢湖州师范学院、陈科海哈尔滨工业大学-深圳、张民哈尔滨工业大学-深圳、陈华钧浙江大学、张宁豫浙江大学发表期刊TASLP 2025论文链接https://arxiv.org/abs/2505.22633代码链接https://github.com/zjunlp/Knowledge2Data一、简介为什么数据正在成为多模态与具身智能的最大瓶颈数据之于人工智能早已不只是“多多益善”的资源问题而是决定模型能否形成正确世界观的认知基础。这一点在多模态理解与具身智能领域尤为明显。近年来多模态大模型Multimodal Large Language Models, MLLMs在图像理解、视觉问答等任务上取得了令人瞩目的进展表面上看它们似乎已经具备了“看懂世界”的能力。然而越来越多的研究发现这类模型在空间理解方面存在系统性短板。它们常常分不清“左”和“右”难以判断“远”与“近”在涉及多个物体的相对位置关系时更容易出现推理混乱。一旦任务从“识别是什么”转向“理解在哪里、如何相互关联”模型性能便显著下降。这一问题直接制约了 MLLMs 在真实场景中的应用例如自动驾驶中的动态环境分析、机器人导航中的路径规划、以及虚拟现实系统中的场景构建等——这些任务都高度依赖可靠的空间感知与推理能力。空间理解的缺失本质上是“认知结构”的缺失与模型形成鲜明对比的是人类几乎可以毫不费力地完成上述空间推理任务。这并非因为我们“看得更清楚”而是因为在长期与世界交互的过程中人类形成了稳定而一致的空间知识结构我们不仅知道“物体是什么”更知道“它们在哪里”“彼此之间如何关联”。正如李飞飞在近期关于“从视觉智能迈向真实世界智能”的讨论中所强调的真正的智能不止于对象识别而在于理解对象与环境之间的结构性关系。如果无法理解三维世界的组织方式模型就无法建立类似人类的认知地图也就难以支撑复杂、可靠的智能决策。换言之空间智能并不是视觉智能的附属能力而是其迈向更高阶段的关键支点。现有数据生成范式的问题有“像”但缺“结构”针对空间数据稀缺的问题现有方法主要依赖两条路径直接利用大模型进行多模态数据合成基于仿真环境生成合成数据这些方法在一定程度上缓解了数据规模不足的问题但也暴露出一个共性局限生成过程缺乏显式的空间知识先验。模型往往只是在“看起来合理”的层面进行拼接而非在“逻辑上自洽”的空间结构约束下生成数据。正如近年来《Nature》文章[1]与多项前沿工作所指出的那样单纯依赖神经网络的隐式表示难以稳定地捕捉和泛化复杂结构关系这也再次引发了对神经–符号融合的关注被视为人工智能下一阶段的重要结构性突破方向。SKG2Data: 用空间知识图谱重构多模态数据生成基于上述认识我们提出了SKG2Data方法尝试从数据源头引入结构性约束通过空间知识图谱Spatial Knowledge Graph, SKG重新组织多模态数据生成过程。不同于直接让大模型“自由发挥”式地合成数据SKG2Data 的核心思想是先构建清晰、可解释、具备空间约束的知识结构再据此生成多模态数据。具体而言我们首先构建包含实体、空间位置以及相互关系的空间知识图谱在图谱层面明确“什么在什么位置”、“彼此如何相对分布”等关键约束随后以该图谱为中枢指导图像生成、文本描述以及问答样本的构建使最终数据在视觉与语言层面都符合真实世界的空间逻辑。通过这种方式模型在训练过程中不只是学习“像素与词汇”而是直接暴露于可组合、可推理的空间关系结构之中从而逐步建立面向真实世界的空间感知与推理能力。从“看见世界”到“理解世界的结构”SKG2Data 并非简单地增加数据规模而是试图回答一个更根本的问题我们究竟希望模型从数据中学到什么如果说传统多模态数据主要教会模型“世界长什么样”那么引入空间知识图谱的数据生成范式则是在一定程度上引导模型理解世界是如何被组织起来的。二、方法1. SKG2Data的核心思想SKG2Data方法的设计灵感来源于人类的认知流程人在理解场景时通常先在头脑中构建一个空间布局例如“某物体位于另一物体的左侧”或“某人位于某处”随后再以语言或图像对该布局进行表述。基于这一认知假设SKG2Data构建了一个系统化的数据合成框架通过显式组织场景要素与空间关系并生成相应的描述以期为模型提供更富结构性、具备可解释性的空间事实样本从而弥补其在空间常识推理上的不足。2. 空间知识图谱构建在数据构建过程中该框架首先利用强大的大语言模型如 GPT-4o依据现实世界常识自动生成多样化的场景类别如“天空”“公园”以及在这些场景中可能出现的对象组合例如“天空”中可能包含“气球”“飞机”“鸟”等。随后系统会从候选对象中选择若干实体并为其补充细粒度属性信息如颜色、材质将原本的概念性对象进一步实例化例如将“多个气球”细化为“红色气球”“蓝色气球”等具体实体。更为关键的是框架会基于这些实例化的实体构建空间关系三元组例如“红色气球左侧蓝色气球”或“红色气球下方飞机”。实体、属性与关系共同组成一张结构化的空间知识图谱它以形式化方式刻画场景中应满足的空间约束作为后续图像与文本生成过程的“空间脚本”确保合成数据严格遵循既定的空间逻辑。3. 基于空间知识图谱的多模态数据合成有了空间知识图谱接下来合成多模态数据图像生成数据合成框架会再次利用大语言模型根据空间知识图谱自动生成每个物体在图像中的边界框Bounding Boxes也就是它们的具体位置和大小。然后将这些边界框信息和空间位置关系三元组一同输入到一个布局引导的扩散模型GLIGEN-based Diffusion Model中生成一张完全符合图谱空间关系的图片。文本生成图片生成后框架会以图谱和图片为依据自动产生大量与之相关的问答对。这些问题主要分为两类实体类问题关注图中有什么物体、它的属性是什么用于保持模型的通用识别能力关系类问题专门针对物体间的空间关系提问例如“红色气球在飞机的哪一边”旨在针对性提升模型的空间推理能力。数据过滤为了保证最终数据的质量数据合成框架还设置了两道“质检关卡”图像过滤和文本过滤利用大模型自动检查生成的图片和问答是否与最初的“空间剧本”一致筛除不合格的数据。通过这一套自动化流程SKG2Data能够大规模地生成高质量、高多样性且严格遵守空间逻辑的训练数据为MLLMs提供了系统性的“空间思维”训练素材。三、实验为了验证SKG2Data的有效性研究团队进行了一系列实验。用合成的多模态数据对LLaVA-1.6和Llama-3.2-Vision这些主流MLLMs进行了微调并在多个基准测试上进行了全面评估。主实验空间理解能力提升在经过SKG2Data数据SFT微调后模型在多个空间理解专项测试中表现出了显著的进步。在论文构建的SKG2Data-Holdout测试集和公开的COCO-Spatial、MMVP数据集上均有提示。通用能力保持稳定专门针对“空间”进行补课会不会让模型“偏科”导致其他通用能力下降实验结果表明在MMStar通用视觉问答和HallusionBench幻觉评测等基准上微调后的模型性能只有轻微波动整体保持稳定。这意味着SKG2Data在为模型注入空间常识的同时并没有牺牲其原有的“基本功”。2. 分析实验“方向”知识比“距离”知识更重要在训练数据中包含“左右、上下”等方向关系的数据对提升模型空间感知能力的贡献相对更大效果优于单纯包含“远近”等距离关系的数据。物体数据越多学得越好合成数据中包含的物体数量越多场景越复杂模型在经过训练后其细粒度的识别和推理能力就越好。机制机理在 Transformer 模型的各层计算不同选项的概率训练后模型在最后几层隐藏层会提升正确选项的概率说明其最终空间决策能力得到了一定优化。四、总结本文提出的SKG2Data框架通过引入空间知识图谱作为数据合成的引擎成功实现了知识到数据的转化。展望未来一个极具潜力的方向是引入强化学习来进一步提升MLLMs的空间能力。当前的数据合成方法主要提供了“静态”的空间知识而强化学习则能让模型在动态、交互式的环境中进行学习。比如通过与环境反馈的互动更深刻地理解动作、空间与语言之间的复杂关系。最后我在一线科技企业深耕十二载见证过太多因技术更迭而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包✅AI大模型学习路线图✅Agent行业报告✅100集大模型视频教程✅大模型书籍PDF✅DeepSeek教程✅AI产品经理入门资料完整的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】为什么说现在普通人就业/升职加薪的首选是AI大模型人工智能技术的爆发式增长正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议到全国两会关于AI产业发展的政策聚焦再到招聘会上排起的长队AI的热度已从技术领域渗透到就业市场的每一个角落。智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200%远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。资料包有什么①从入门到精通的全套视频教程⑤⑥包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图还有视频解说全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤ 这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。所有的视频教程由智泊AI老师录制且资料与智泊AI共享相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念通过动态追踪大模型开发、数据标注伦理等前沿技术趋势构建起前沿课程智能实训精准就业的高效培养体系。课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界。业务赋能 突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】**