SLAM技术的发展及其在自动驾驶与具身智能领域的应用引言即时定位与地图构建SLAMSimultaneous Localization and Mapping是一种让机器人或设备在未知环境中一边移动一边构建地图同时实时推算自身位置的核心技术。这听起来像是个“先有鸡还是先有蛋”的难题定位需要地图而建图需要定位。然而SLAM的突破在于——不先假设已知地图或位置机器可以边走边猜测环境地图边猜边校正误差。想象一个扫地机器人首次进入陌生房间它没有现成的地图却能一边移动一边“记住”家里的布局最终绘制出房间地图而不迷路。这正是一场巧妙的“自我认知革命”一边走一边画地图一边画图一边定位自己。SLAM通过融合传感器数据和概率算法在不确定性中迭代求解哪怕初始误差很大最终也能拼出较准确的地图并确定自身所在。从1980年代理论萌芽到如今的应用开花SLAM技术经历了滤波算法、图优化、视觉SLAM、激光SLAM、多传感融合以及深度学习融合等阶段的发展。SLAM算法常被描述为在给定观测值和控制量的条件下估计机器人轨迹和环境地图的后验概率即同时估计“我在哪”和“环境是什么样”。早期解法包括扩展卡尔曼滤波EKF和粒子滤波后来引入图优化方法用后端全局优化提高大规模场景的精度。近年来随着传感器升级和算力提升SLAM走向多源信息融合和语义感知的新时代。下面我们将先介绍经典SLAM方法的主要类别及近三年的技术进展然后分领域探讨SLAM在自动驾驶、服务机器人、无人机以及AR/VR等具身智能场景中的应用和作用并盘点产业界与开源社区的最新动态最后以里程碑时间线总结SLAM发展的关键节点。经典SLAM方法概览近年进展SLAM方法按传感器和算法特点可分为视觉SLAM激光SLAM视觉惯性/多传感器融合SLAM等类型它们各有优劣并在近年取得了新进展。同时深度学习和语义技术正日益融入SLAM前端和后端。以下按类别梳理主要方法的演进视觉SLAMV-SLAM的演进特征法 vs 直接法视觉SLAM主要包括基于特征点的间接法和基于像素强度的直接法。特征法通过检测并匹配图像特征点如ORB、SIFT等构建稀疏地图直接法则直接最小化像素亮度误差来估计相机运动。2015年问世的ORB-SLAM是特征法里程碑系统支持单目、双目和RGB-D相机实时SLAM。其后继版本 ORB-SLAM22016和 ORB-SLAM32020加入了闭环检测回环校正、地图复用以及IMU惯性传感器融合等功能使ORB-SLAM3成为首个支持单目/立体/RGB-D IMU的通用视觉SLAM框架大幅提升定位精度和鲁棒性。相较之下直接法近年来的代表有 LSD-SLAM (2014) 和 DSO (2016)前者实现了大尺度半稠密单目建图后者通过稀疏直接法和光度误差优化在无特征点提取的情况下也能达到高精度视觉里程计效果。这些方法验证了直接法在弱纹理场景的优势和可行性。深度学习赋能前端近三年深度学习在视觉SLAM前端得到了更多应用。例如使用学习型特征替代人工设计特征以提高鲁棒性。一些研究利用卷积神经网络提取对光照变化不敏感的特征描述子从而增强长期定位能力。还有工作将SuperPoint特征和SuperGlue特征匹配引入SLAM系统显著提高了关键点匹配的可靠性并提升了回环检测性能。针对动态场景干扰2023年出现了DynaVINS等算法将深度学习的运动分割用于视觉惯性SLAMV-INS自动剔除视野中移动物体的特征点从而提升动态环境下的定位稳定性。实践表明将深度学习嵌入SLAM前端特征提取、语义分割、闭环识别等可以有效提高传统视觉SLAM在复杂环境下的鲁棒性。端到端与深度融合完全端到端的SLAM仍是研究挑战。近年来有尝试训练神经网络直接从视频输出相机轨迹和密集深度地图但泛化能力有限。更现实的方案是深度辅助SLAM即在经典SLAM管线的基础上融入学习模块。例如CNN-SLAM利用单目深度估计网络辅助建图DVSO通过学习特征增强直接法的稳健性。值得一提的是2021年的Droid-SLAM将可微分光流网络与优化相结合实现了端到端训练的视觉里程计在室内数据集上取得领先效果。总体来看深度学习在特征提取、深度预测等方面为视觉SLAM提供了新动能但尚无法取代后端的优化求解过程。长期运行与语义针对长期运行环境变化ORB-SLAM3 引入了**多地图multi-map**管理机制可针对不同场景构建独立子地图并在场景切换时无缝转移。此外研究者还探索融合先验的CAD模型地图辅助定位以及无监督学习以获取跨季节鲁棒特征等方法使视觉SLAM逐步具备长期运行能力。另一方面语义感知也开始融入视觉SLAM以提升地图的可理解性和定位稳定性。例如在2018年前后出现的Fusion、Semantic SLAM等系统已能在室内环境的点云地图中标注语义信息如墙壁、家具等。2020–2022年语义SLAM在众包地图、高精度泊车定位等领域开始落地被誉为“SLAM最后的荣光”之一。随着深度学习模型更精确且高效未来SLAM有望与环境的语义理解深度结合迈向同时定位、建图与语义理解的空间人工智能。激光SLAMLiDAR-SLAM的演进激光雷达SLAM概述激光SLAM利用激光雷达扫描获得高精度的距离深度信息对光照不敏感因此广泛应用于无人驾驶和机器人。典型里程碑是2014年的LOAM算法它提出了将激光里程计与建图分离的双线程框架提取点云的边缘和平面特征实现实时高精度建图。LOAM开启了3D激光SLAM高精度时代其在KITTI数据集上创下精度记录。此后出现了众多LOAM改进版本如LeGO-LOAM针对低线数激光雷达如Velodyne VLP-16进行了轻量化优化。这些工作让低成本激光传感器也能取得较好SLAM效果。高性能激光里程计过去三年高性能的激光惯性里程计LIO成为研究热点。香港科大等团队推出了FAST-LIO系列算法大幅提升了激光IMU里程计的速度与精度。例如FAST-LIO2采用紧耦合EKF融合3D点云和IMU使用体素地图加速点云匹配使算法在CPU上即可高频运行。2022年FAST-LIO2.0进一步优化了点云预积累和并行计算处理效率业界领先。同在2022年来自波恩大学的KISS-ICP算法证明了通过纯几何的方法也能实现稳健高精度的激光里程计——它逐帧执行点到点ICP配准配合关键帧策略和离群点剔除性能媲美复杂特征提取算法。这些成果再次印证了算法简化有时也能获得高性能降低了SLAM在低算力设备上的实现门槛。闭环优化与大场景相较于视觉SLAM传统激光SLAM在回环检测和后端全局优化方面较为薄弱但近年有所加强。2023年有研究在激光SLAM中引入类似词袋模型BoW的闭环检测利用轻量级3D特征描述子如LinK3D构建词典实现高效回环识别和全局优化将 KITTI 数据集的轨迹误差显著降低。同时为适应大规模场景稀疏图优化框架不断演进例如 **CT-ICP连续时间ICP**允许激光SLAM在非匀速运动下精确建图NASA JPL开发的Locus系统在地下探测挑战赛SubT中验证了多机器人构建一致地图的鲁棒方案。这些进展使激光SLAM在大范围、长时间运行时的可靠性提升到新的水平。语义与隐式地图新近的激光SLAM还融入了语义感知和神经隐式表示等前沿技术。例如2023年的LVI-ObjSemantic算法结合视觉、激光、IMU和深度学习将目标级语义信息如车辆、行人等检测纳入SLAM流程提高了动态环境下的鲁棒性。在地图表达方面ICRA 2023 提出的SHINE-Mapping方法使用分层神经辐射场来表示环境不仅能降低大地图的内存占用还提升了建图精度。这预示着激光SLAM正从纯几何点云地图走向融合语义标签和隐式模型的新阶段让机器人对环境的理解更加丰富。视觉惯性与多传感器融合SLAM单一传感器各有局限为提升SLAM在动态复杂环境中的鲁棒性融合多种传感器信息成为近年趋势。其中**视觉–惯性里程计VIO**是经典组合利用相机IMU的互补优势解决视觉尺度模糊和瞬时失效问题。例如MSCKF、OKVIS、VINS-Mono等算法利用IMU的高速测量来校正单目视觉的尺度和姿态偏差实现稳定6DoF跟踪。香港科大于2018年发布了VINS-Fusion进一步融合双目和GPS等信息在因子图框架下统一优化成为实用的多传感器SLAM开源方案。VINS-Fusion在开源社区广受欢迎但其作者团队在2021年后已停止更新。激光-视觉-惯性紧耦合近年来最大的亮点是LiDAR 相机 IMU的紧密融合。MIT于2020年提出了激光惯性里程计LIO-SAM随后在2021年将其与VINS组合推出LVI-SAM在同一优化系统中联合处理激光、视觉和惯性数据实现了真正的多模态SLAM。LVI-SAM开源后成为高精度里程计的新基准其改进版本在2023年继续涌现包括引入语义信息的LVI-SAM变体以及支持多机器人扩展的版本。另一个来自HKUST的系统R3LIVE(2021) 则融合了实时Realsense双目相机与激光数据用视觉特征辅助激光建图在光照复杂的环境下获得了更平滑的轨迹。这些研究表明深度紧耦合的多传感器SLAM大幅提升了定位的稳健性即使在单一传感器失效或环境恶劣时仍能可靠工作。多机协同SLAM当多个机器人/设备协同工作时如何共享地图和定位是新的挑战。2022–2023年涌现了如Kimera-Multi等分布式SLAM系统实现多机器人稠密语义地图的融合与共享。Kimera-Multi 通过分布式位姿图优化和语义点云合并荣获2023年IEEE T-RO年度最佳论文标志着多机SLAM技术的成熟。协同SLAM不仅适用于机器人集群也拓展到AR领域的多人共享场景——例如Google ARCore的Cloud Anchor和微软Azure的Spatial Anchors本质上都是跨设备SLAM地图对齐实现多用户在同一坐标系下放置和看到虚拟物体。总之多传感器融合和多主体协同已成为近年SLAM研究的重要方向使SLAM系统在更复杂、更大尺度的场景中依然保持准确可靠。SLAM与深度学习融合趋势除了在各类传感器前端的改进深度学习与SLAM的结合整体上也呈现两大趋势其一是为传统SLAM赋能其二是探索学习化的新SLAM框架。赋能传统SLAM深度学习可用于提取更鲁棒的感知要素例如用CNN提取抗噪的特征点、用深度估计网络提供单目距方案、用图像分类/检测进行场景识别辅助回环检测等。这些学习模块作为插件融入SLAM管线有助于提升定位的鲁棒性和精度。例如上文提到的SuperPointSuperGlue特征匹配、DynaSLAM系列的动态物体排除等均明显改善了SLAM在实际复杂环境下的表现。学习式SLAM探索一些研究尝试用端到端学习框架取代部分SLAM过程。2022年出现的NeRF-SLAM将神经辐射场 (NeRF)用作地图表示通过持续优化一个小型MLP网络来逼近环境的观测实现同时优化相机位姿和隐式地图。这开创了利用神经隐式表示进行建图的新思路。虽然NeRF-SLAM等在小规模场景中展示了令人瞩目的效果但由于计算量巨大目前难以实时应用多处于概念验证阶段。总的来看SLAM的地图表示正从离散点云/网格迈向连续的隐式模型这为未来SLAM突破现有瓶颈提供了潜力。与此同时语义SLAM的兴起让SLAM不仅定位和建图还能“看懂”环境——通过深度学习检测物体、分割地面墙壁等将这些高层语义融入地图可以提升定位的鲁棒性并让地图更具可理解性。语义SLAM技术已经在一些实际场景落地如众包高精地图构建、无人车自主泊车中减少对人工地图的依赖。可以预见语义理解SLAM将成为机器人空间智能的重要方向使SLAM从纯感知层面走向认知层面。总结来说经典SLAM方法在最近数年通过多源融合、引入学习模块等手段正变得更加精准、稳健且智能为后续各领域的应用打下基础。下面我们将分别介绍SLAM在自动驾驶和具身智能服务机器人、无人机、AR/VR等中的具体应用进展。自动驾驶中的SLAM应用在自动驾驶车辆中SLAM技术主要用于高精地图构建、车辆精准定位以及多传感器融合感知等方面。自动驾驶汽车需要在复杂动态环境中精确定位和安全导航通常会将预先构建的高清地图与车载实时SLAM结合使用。SLAM既参与离线阶段的高精地图制作又用于在线阶段的定位和环境感知。以下按子主题介绍SLAM在自动驾驶感知定位中的作用以及近三年行业方案的演进与主流公司技术路线高清地图构建与车辆定位高精地图制作大多数L4级自动驾驶方案依赖高清地图HD Map提供先验环境信息。SLAM算法是制作和更新这些高精地图的关键工具。例如百度Apollo平台利用SLAM拼接多帧激光点云和视觉数据构建道路环境的高精地图为后续车辆定位和路径规划提供支持。HD地图通常包含车道线、路沿、交通标志等要素其制作需要融合激光雷达和摄像头数据通过SLAM将不同位置的扫描对齐成统一坐标下的完整地图。近年业界也探索众包建图模式让大量运营车辆采集感知数据上传云端通过SLAM融合构建和更新地图以降低人工测绘成本。这种云端SLAM使地图能够更实时地反映道路变化。车辆自定位自动驾驶汽车通常采用多源数据融合实现厘米级精定位包括GPS/RTK、轮速里程计、IMU以及激光/视觉SLAM匹配定位等。典型方案如激光雷达定位Waymo路线使用车载3D激光雷达实时扫描并与HD地图中的点云特征进行匹配通过ICP算法快速计算车辆在地图坐标系下的6自由度位姿定位精度在城市街道可达20cm以内。另一类是视觉定位Tesla路线依靠多摄像头感知道路边缘、车道线、路标等特征与地图特征比对来定位。有些不依赖预制地图的视觉方案甚至尝试即时建图定位车辆一边走一边用摄像头构建局部稀疏地图遇到曾经过的路段时就进行回环匹配校正相当于实时小范围SLAM辅助定位。特斯拉FSD系统据传采用了“影子模式”地图即后台融合海量车辆的摄像头观测来持续生成环境模型在罕见场景下辅助定位。这种众包视觉SLAM思路与传统HD地图制作相结合有望提高长尾场景下的可靠性。视觉 vs 多传感路线目前行业在感知方案上明显分化为纯视觉和多传感器融合两大路线。特斯拉坚持纯视觉方案仅用8个摄像头加强大的神经网络感知环境。马斯克甚至直言激光雷达是“愚蠢的”冗余。纯视觉路线省去昂贵的激光雷达硬件使单车成本仅为多传感方案的约1/4利于规模量产。但挑战在于没有激光辅助时如何获得可靠的深度感知和定位这需要通过神经网络学习和多帧推理来弥补实质上是在用视觉SLAM思想估计深度。相反Waymo等公司走的是激光雷达摄像头IMU的多传感融合路线各传感器互补提高鲁棒性。Waymo车辆安装顶置激光雷达、环视相机和高精度IMU。早期Waymo依赖激光点云匹配HD地图进行定位近年来也改进SLAM模块增强实时建图能力以应对道路施工等地图变化。Waymo还研究学习型定位用深度神经网络直接从多传感数据回归位姿或者检测环境中独特的局部结构再将其与地图特征关联提升定位收敛速度。2022年Waymo公布了HDMapGen模型用生成对抗网络自动合成多样化道路HD地图以推动地图自动更新。截至2025年Waymo无人车队已积累9600万英里自动驾驶里程其SLAM定位失效率极低被视为行业标杆。传感器融合感知与环境建图自动驾驶的环境感知模块需要融合多种传感器来理解周围动态环境。SLAM既是定位模块的核心也可以看作一种特殊的感知融合方式它融合激光、视觉、IMU等数据输出车辆自身位姿和环境的地图。比如Apollo系统中使用毫米波雷达SLAM获得初步定位再结合摄像头的目标检测提升对动态物体的跟踪。在GPS失效的区域如隧道、地下停车场SLAM往往成为唯一可靠的定位手段。随着深度学习的发展不同传感器数据可以通过深度融合网络提取联合特征反馈给SLAM算法以增强其在恶劣条件下的鲁棒性。近期有研究在多传感SLAM中引入深度强化学习让车辆在模拟环境中学习优化传感器融合策略从而提升定位精度。SLAM也用于构建环境地图供高级驾驶决策使用。传统HD地图多为离线绘制但实时SLAM可以补充最新环境变化如临时障碍到局部地图中供决策避障使用。例如有公司探索在自动驾驶车端构建局部体素地图或障碍物点云图用于及时避让道路上的新出现障碍。这方面Tesla等公司已在尝试让车辆在线学习环境持续刷新其所见过道路的局部地图模型以达到无需完全依赖静态HD地图的目标。动态环境处理与语义地图实际道路环境充满移动的车辆、行人等动态要素SLAM必须具备识别并剔除动态物体影响的能力。为此学术界提出了如DynaSLAM等算法利用光流或语义分割检测视野中的运动物体将其在定位建图过程中排除避免产生鬼影或轨迹漂移。这类“动态SLAM”技术在2023年已经部分集成到自动驾驶的感知系统中提高了SLAM在行人和车辆干扰下的鲁棒性。与此同时自动驾驶所依赖的高清地图也在从纯几何信息升级为语义高精地图。未来的地图不仅告诉车辆“在哪里”还要告诉车辆周围**“有什么”。通过SLAM生成的点云地图叠加车道线、交通标志、红绿灯等语义标签车辆就能同时获得几何定位和对环境语义的理解。目前大部分语义信息仍通过离线标注添加但也有一些尝试让车辆行驶过程中自动将识别出的停车线、道路边界等要素在线融入地图**。许多自动驾驶公司构建了自有的高精地图平台将SLAM建图、语义融合、众包更新结合为一体作为核心竞争力。例如小马智行等声称其新一代系统降低了对HD地图细节依赖在新道路上仅凭SLAM建图也可临时安全通行。这背后也是SLAM模块融合视觉语义感知的成果让车辆即使没有预先地图也能识别车道线和交通要素构建临时地图支撑决策。本地地图与云端地图更新自动驾驶定位通常分为局部地图跟踪和全局地图定位两层。SLAM实时维护的本地一致地图如局部点云或网格用于短时间精确避障和姿态估计而全局定位则依赖预先构建的城市级HD地图。为结合二者近年来提出了多轨迹SLAM用于车队地图更新不同车辆不同时刻采集的数据需要通过SLAM对齐到统一坐标系下。例如Hilti SLAM Challenge 2023就重点评测了多传感器多会话SLAM验证如何将施工场地多次巡检的点云合并成一张图。不少厂商已部署云端图优化服务车辆将SLAM生成的子地图上传云端云端进行全局闭环检测和优化再将更新后的地图下发给车队。这种架构相当于将SLAM的后端放在云端集中处理大幅提高了地图的一致性和新鲜度也实现了多车协同建图。可以预见随着通信技术发展自动驾驶将越来越多地采用云端SLAM和V2X协同实现车-路-云一体的定位与地图更新如华为ADS方案中车路协同SLAM的理念。主流公司与方案动态Waymo谷歌旗下的Waymo作为自动驾驶先行者其技术路线强调传感器完备高精地图。Waymo车辆配备顶置64线激光雷达、360°相机和高精度IMU融合激光SLAM和视觉识别实现可靠感知定位。近年Waymo改进SLAM模块增强实时建图能力应对道路施工等地图变化同时研究基于深度学习的定位算法如直接从传感器数据预测车辆位姿或检测独特环境特征加速定位收敛。其HDMapGen生成模型用于自动生成多样道路地图也是为提高地图更新效率所做的探索。Waymo的多传感SLAM在凤凰城等地无人出租车长期运营中表现出极高可靠性截至2025年累计9600万英里自动驾驶里程而SLAM失效率极低确立了行业标杆地位。Tesla特斯拉选择了完全不同的路线——完全放弃激光雷达深挖纯视觉方案。其FSD系统利用8个摄像头构建360°环境感知。为理解空间Tesla引入了鸟瞰图BEV模型将多相机图像通过卷积网络融合成俯视平面的语义占用网格这其实相当于一种学习版SLAM网络在内部隐式推理出车辆周围的空间结构相当于构建了一张动态更新的语义地图。据报道2023年Tesla在开发“个人HD地图”功能让车辆在日常驾驶中逐步积累常用路线的环境模型缓存于车载存储供下次行驶调用提高FSD稳定性。这类似于SLAM的增量建图思想在量产车上的应用。特斯拉纯视觉方案的优势在于数据量极为庞大——截至2025年其全球车队收集了数百亿公里的视频可用于不断训练改进SLAM能力。挑战则在于无激光时确保复杂环境下足够的距离感知和定位精度。随着视觉Transformer、Occupancy Network等新技术加入Tesla的视觉SLAM能力持续演进并宣称将在部分城市实现无HD地图依赖的L4自动驾驶。Baidu Apollo百度Apollo开放平台走“多传感器融合 HD地图”路线。Apollo自动车融合多线激光雷达4–5个、摄像头、毫米波雷达以及GPS/IMU实现全方位冗余感知和高精度定位。运行中Apollo主要通过激光SLAM进行自我定位将点云与HD地图匹配精度可达10cm级别。Apollo近年在自主泊车和限定场景无图自动驾驶上有所进展开发了Lite HD Map技术允许车辆用SLAM快速建图导航于停车场等局部区域减少对预制地图的依赖。2021–2023年Apollo已在北京亦庄、广州等地展开Robotaxi试运营通过不断优化SLAM降低定位漂移每晚利用非高峰时段重新运行SLAM扫描道路更新地图以保证白天运营的稳健性。这体现了工业界对SLAM工程稳定性的重视要求算法在各种天气、光照下都可靠并具备快速地图更新机制以应对环境改变。华为 国内新创华为在2021年入局自动驾驶推出了ADS先进驾驶系统采用激光视觉融合方案并强调车路协同。其车辆不仅利用自身传感器SLAM定位还结合路侧单元RSU的激光雷达感知实现车与路的协同SLAM定位提高定位精准度和安全冗余。华为ADS在上海试点中展示了厘米级定位和顺畅变道决策这离不开高精地图和SLAM的支撑。另外AutoX、小马智行Pony.ai等中国L4自动驾驶公司大多沿用多传感HD地图架构但在细节实现上各有侧重。例如AutoX宣称其第5代系统降低了对高清地图细节的依赖新路段仅凭SLAM也能安全通过——这得益于其SLAM融合了摄像头的语义理解可在无HD地图时识别车道线和交通标志以构建临时地图决策。总体来说SLAM已从幕后走到台前成为自动驾驶感知定位不可或缺的一环。随着巨头投入未来车载SLAM将继续提升性能并拓展功能例如实时云端地图更新、跨车辆协同SLAM等。服务机器人与无人机中的SLAMSLAM技术同样是各类服务机器人、工业机器人和无人机实现自主移动的核心支撑。下面介绍近三年SLAM在家用服务机器人、工业移动机器人AMR、无人机自主导航等具身智能领域的趋势和案例。室内服务机器人日常生活中扫地机器人、送餐机器人、安防巡逻机器人等需要在未知室内环境自主导航SLAM赋予了它们空间记忆和路径规划能力。早期廉价扫地机往往使用简单的随机碰撞或红外传感定位近年来高端机型普遍配备视觉或激光SLAM。视觉SLAM方案如iRobot公司的Roomba系列利用机顶摄像头实现V-SLAM实时构建房间的二维平面地图供路径规划。激光SLAM方案如科沃斯等品牌则偏好低线数激光雷达816线实现2D平面SLAM。不论视觉或激光SLAM让机器人能够边走边绘制房间地图记住清扫过的区域并避开禁区。最近的趋势是融合AI提升机器人的智能性例如结合SLAM地图加入语义信息检测房间类型、家具位置从而实现按房间定制的清扫模式。另外在商用场所的服务机器人如酒店送物、配送机器人中SLAM被大量用于自主乘坐电梯、跨楼层导航等复杂任务。2023年有机器人公司引入多楼层SLAM方案能够在构建3D地图的同时识别电梯位置和楼层切换实现跨楼层的连续定位。总体而言SLAM在近几年大大提高了服务机器人的可靠性和易用性赋予机器理解空间和自主移动的能力加速了机器人走进家庭和商业场景的落地。图扫地机器人通过SLAM绘制的室内地图示例Roborock应用中SLAM结果截图。机器人使用机载传感器不断更新家居环境地图只需在变化处增量更新从而高效规划清扫路径。该地图中不同颜色区域表示房间划分白色线条为已识别的墙壁轮廓绿色轨迹为机器人移动路径。工业移动机器人AMR在工厂、仓库中运行的自主移动机器人和AGV叉车通常依靠激光SLAM进行室内定位导航。一些经典2D激光SLAM算法如GMapping、Cartographer至今仍广泛用于工业小车实现构建栅格地图来规划路径。然而面对动态的工业现场新一代AMR开始采用多传感器融合SLAM和更鲁棒的算法。比如佳士得Clearpath Robotics的AMR结合车载激光SLAM和视觉ArUco码定位提高了在货架密集环境下的可靠性。2022年出现的Kinect-Fusion质检机器人则将深度相机SLAM用于构建设备3D模型实现工厂巡检自动化。国内的新松公司开发的仓储机器人SLAM系统还引入闭环优化当多台机器人在大仓库内行驶时可以共享定位锚点防止里程计误差无限累积。随着5G与边缘计算的发展工业SLAM也出现云端并行建图方案多台机器人将各自激光点云上传云服务器实时融合成统一的全局地图并下发给每台机器人。这类似多机器人协同SLAM应用于智慧物流大幅提升机器人集群的协调效率。近三年一些大型仓储项目已开始实践这类云端SLAM架构为工业现场提供更可靠的导航与调度。无人机自主导航无人机UAV因载重量和功耗限制常使用轻量级传感器SLAM来在无GPS环境下实现自主导航。视觉惯性里程计VIO在无人机中应用尤其广泛Facebook开源的 OpenVINS 框架可在手机SoC上实时运行为小型无人机提供6DoF定位。2020年后无人机SLAM一大趋势是多模态融合。部分高端无人机开始配备微型激光雷达或深度摄像头与视觉IMU数据一起用于SLAM从而提升定位精度和避障可靠性。例如大疆创新在其旗舰无人机上引入双目视觉传感器实现避障和定位一些竞速无人机则加装轻量激光雷达模块获取精确高度信息用于SLAM融合。在前沿研究方面2022年有工作提出将事件相机与视觉SLAM结合用于无人机高速飞行场景。事件相机可提供高时间分辨率的变化信息能克服普通相机在高速运动下的模糊问题保障SLAM在快速机动中的稳定性。此外多无人机编队协同SLAM也受到关注MIT研发的分布式SLAM算法可使编队中的无人机共享地图实现团队协同探索。2023年有研究展示了三架无人机同时SLAM构建农田地形图的案例相互通过识别共同标志物进行回环闭环提高了地图精度。这些进展预示SLAM将在无人机集群的自主飞行与探测中发挥重要角色相关技术正日趋成熟。增强现实AR与虚拟现实VR中的SLAMAR/VR设备也属于“具身智能”系统需要SLAM来感知和理解空间实现虚实融合和定位追踪功能。增强现实AR中的空间定位现代智能手机、平板电脑上的AR应用大都内置了SLAM能力。苹果的ARKit2017年发布和谷歌的ARCore框架内部集成了视觉惯性里程计算法利用设备的摄像头和IMU实现实时的6DoF定位和平面检测从而把虚拟物体稳定地叠加在现实场景中。随着硬件升级苹果在高端设备如iPhone Pro系列和iPad Pro中加入了激光LiDAR扫描仪ARKit从2020年起结合LiDAR深度数据大幅提升了SLAM初始化建图的速度并增强了在弱纹理环境如纯色墙面下的稳健性。2023年苹果发布的首款空间计算设备 Vision Pro在演示中通过SLAM将虚拟的3D模型无缝叠加于真实舞台场景这款头显配备多颗摄像头和IMU能动态捕捉空间和用户位置实现沉浸式的虚实融合体验其背后依赖的正是ARKit框架的实时SLAM能力。谷歌方面在Project Tango之后以纯软件方案的ARCore持续改进了视觉惯性跟踪算法并通过Cloud Anchor实现多人共享坐标系本质上是跨设备SLAM地图的对齐。近三年AR领域关于SLAM的研究还关注两个方向鲁棒性和能效。比如2022年提出的ViSTA-SLAM使用对称网络结构将SLAM模型大小缩减65%以适配移动端设备同时保持精度。又比如有研究专门探讨AR中SLAM跟踪丢失后的快速恢复问题提出利用先验环境地图或深度学习预测相机位姿在跟踪中断时迅速重定位。总的来说SLAM已成为AR应用的底层引擎被形象地称为让我们“融入数字世界的桥梁”。未来随着眼镜式AR设备的普及对SLAM的低功耗高精度要求还会进一步推动算法创新。虚拟/混合现实VR/MR中的定位追踪自2019年 Oculus Quest 问世以来虚拟现实头显普遍采用Inside-Out定位追踪即通过头显自身搭载的SLAM系统实现头部6DoF定位取代了传统的外部定位灯塔。这通常需要头显配备多颗广角摄像头和IMU通过V-SLAM实时计算用户头部相对环境的位置姿态。FacebookMeta的Quest系列使用改进的ORB特征法SLAM结合鱼眼摄像头标定和IMU积分在房间范围内可达到亚厘米级精度使用户在现实房间内自由走动的同时虚拟世界中的视角同步移动且不漂移。微软的HoloLens混合现实设备更早在2016年就运用了SLAM初代HoloLens采用微软耗时十年研发的Inside-Out SLAM方案由4个环境相机和1个深度相机组合实现了当时业内顶尖的稳定追踪。HoloLens 22019年进一步增强了SLAM算法对大空间的鲁棒性有所提升并增加了语义感知例如识别房间墙面和空间锚点共享功能在发布会演示中HoloLens 2可实时捕捉会场观众的位置并将虚拟内容精准投射到每个人眼前——这依赖于SLAM对环境的精准建图和对多用户位置的感知。2023年HoloLens团队又演示了多人MR协作场景通过云端SLAM融合多用户的空间锚点每个人都能在各自设备中看到位于相同真实位置的同一个虚拟物体真正实现了“共享的增强现实”。这种空间锚点云的概念也是Apple和Google积极布局的方向可视作SLAM技术的云端延伸应用。在VR/AR/MR领域SLAM正朝着支持更大空间的定位如城市级AR导航、多人协同以及与手势/眼动追踪等交互融合的方向发展不断提高设备对环境和用户动作的感知能力。产业界与开源社区的SLAM进展SLAM技术的快速演进离不开产业界和开源社区的共同推动。近三年主要公司、研究机构和开源项目在SLAM领域都非常活跃涌现出许多新成果学术研究力量世界各大顶尖实验室持续驱动SLAM算法创新。麻省理工学院(MIT)的 SPARK 实验室连续推出了多项VIO和多传感SLAM前沿成果包括 VINS、LVI-SAM、Kimera 等其中 Kimera 的多机器人语义SLAM工作荣获2023年最佳论文。香港科技大学(HKUST)的 RAM-Lab 专注于激光和多传感SLAM贡献了 LIO-Mapping、FAST-LIO系列、R3LIVE 等高性能算法。德国波恩大学的 Cyrill Stachniss 团队则在群体SLAM、轻量ICP如KISS-ICP等方向领跑业界。工业界研究方面谷歌深耕SLAM多年开源了知名的Cartographer用于室内2D/3D建图微软研究院开发了ORB-SLAM的改进算法用于HoloLens定位Facebook (Meta)投入XR领域SLAM开源了大规模视觉重定位数据集和一些VIO算法支持其AR云项目。中国科研力量同样活跃上交大、清华等高校团队在语义SLAM、群体SLAM等方向发表了大量论文商汤科技、旷视等AI公司将SLAM与计算机视觉技术结合探索AR导航和无人机视觉方案。可以说SLAM已成为AI时代机器人感知的重要组成部分全球顶尖实验室和企业研发部门纷纷布局SLAM相关研究。开源项目生态开源社区的繁荣极大地促进了SLAM技术的传播与应用。西班牙萨拉戈萨大学开源的ORB-SLAM3收获了6500星标尽管作者在2022年停止更新但社区派生项目层出不穷。MIT感知小组的LIO-SAM2020在GitHub上也有数千星并在2024年继续由社区维护更新。谷歌的Cartographer官方停止更新于2022年但在ROS2社区持续得到支持以7100星成为最受欢迎的激光SLAM库之一。国产开源项目也在崛起例如日本产学团队发布的OpenVSLAM2019作为可扩展的视觉SLAM框架近两年持续更新并支持ROS2在算法验证和对比研究中降低了入门门槛。HKUST开源的FAST-LIO2(2021) 一直保持活跃并衍生出FAST-LIO、LIO-PPF等多个分支版本不断优化性能。此外近年出现的新秀项目包括MIT的Kimera集成语义和稠密建图、苏黎世ETH的maplab多地图管理、特拉华大学的OpenVINS轻量级VIO等这些项目在2023年前后都发布了新版本。值得关注的是一些融合神经辐射场的新方向也有开源实践如NeRF-SLAM、NeRF-LOAM等项目在GitHub上出现由MIT、HKUST等贡献加速了这一前沿思路的发展。行业产品与竞赛SLAM技术创业公司近年来也十分活跃。国内厂商思岚科技 (Slamtec) 推出了低价激光雷达及配套SLAM算法被广泛应用于服务机器人。德国 NavVis 公司提供高精度室内移动扫描设备其SLAM技术支持手持或推车式3D扫描仪快速建图用于建筑数字化等场景。英国的 SLAMcore 公司为机器人厂商提供软硬件一体的SLAM模块可在嵌入式ARM板上运行优化的VIO和3D感知算法。国内如虹软、平凯星辰等将视觉SLAM算法嵌入手机SoC平台用于AR应用和双目摄像头模组。无人驾驶领域也有企业自主研发SLAM算法如图森未来、速腾聚创分别针对卡车自动驾驶和激光雷达设备开发了高性能SLAM引领专利布局。此外各类SLAM比赛与数据集层出不穷2023年举办了多场SLAM挑战赛如中国SLAM技术挑战赛、Hilti SLAM Challenge等吸引产学研团队同台竞技推动了复杂场景下SLAM性能的提升。这些比赛也产出了新的公开数据集如建筑工地多会话SLAM数据集为研究提供了宝贵资源。可以看到SLAM的开源生态已从算法代码拓展到数据集、基准评测、教程社区等方方面面全方位促进了技术进步。经过上述回顾可以发现过去三年SLAM领域可谓百花齐放无论是学界顶尖实验室还是业界巨头与创业团队都投入了巨大热情。丰富的开源资源降低了学习和使用SLAM的门槛一个开发者很容易获取成熟SLAM库用于机器人或AR应用开发。这样繁荣的生态将持续驱动SLAM技术创新并拓展其应用版图。SLAM技术重要发展里程碑下面以时间线列出SLAM发展历程中具有里程碑意义的事件、算法和系统包括时间、名称、类型、简要说明及其贡献影响时间名称/事件类型简要说明贡献与影响1986Smith Cheeseman不确定性表示理论基础提出用高斯概率模型表示机器人位置和地图要素的不确定性奠定了SLAM概率理论基础引入协方差传播等概念。1995“SLAM”术语提出理论基础Durrant-Whyte等人在论文中首次使用“SLAM”定义同时定位与建图问题标志SLAM作为独立研究问题领域的正式诞生。1998EKF-SLAM初次演示滤波算法使用扩展卡尔曼滤波(EKF)实时估计机器人状态和环境地图在实体机器人上验证了SLAM首次成功实现机器人同时定位与建图证明SLAM在现实中可行。2002FastSLAM算法发表粒子滤波SLAM提出粒子滤波并行估计轨迹和地图每个粒子维护独立EKF地图将SLAM计算复杂度从指数降低为线性大幅提升可扩展性使百维以上状态的SLAM成为可能。2003首架SLAM自主无人机演示UAV-SLAM尚特拉等展示无人直升机在未知环境中利用SLAM实现自主飞行首次将SLAM应用拓展至空中载具标志无人机自主导航时代开启。2004GraphSLAM算法兴起图优化SLAM提出将SLAM后端转化为全局优化问题因子图/平滑算法可处理大规模回环引入图优化思想如TORO/g2o等)为后续大规模稠密SLAM奠定基础。2005Stanley无人车夺冠DARPA挑战自动驾驶Stanford的Stanley无人车融合激光视觉SLAM赢得2005年DARPA沙漠无人驾驶挑战赛冠军SLAM技术首次在高速无人车中成功应用推动了自动驾驶技术的早期发展。2007MonoSLAM算法发布视觉SLAM (单目)Davison提出首个实时单目视觉SLAM算法基于EKF跟踪稀疏特征点首次证明仅用低成本单摄像头也能实现SLAM在学术界引发视觉SLAM研究热潮。2007PTAM系统问世视觉SLAM (并行)Klein Murray提出并行跟踪与建图(PTAM)框架将相机跟踪和地图优化分离为两线程并行运行实现了稳定的实时相机追踪被视为AR应用的里程碑启发了后续众多特征法SLAM系统设计。2011KinectFusion发布RGB-D SLAMIzadi等利用微软Kinect深度相机实现实时的全稠密3D重建SLAM开创稠密SLAM方向可在小范围内生成高细节的三维模型对机器人3D感知影响深远。2014LSD-SLAM提出视觉SLAM (直接)TUM团队发布大尺度半稠密直接法SLAM只利用像素强度而非特征点即可实现单目相机的地图构建首次实现单目相机的大范围建图证明直接法在低纹理区域具有优势丰富了视觉SLAM方法论。2014LOAM算法发表激光SLAM (3D)Zhang Singh提出激光里程计地图构建双线程框架提取点云边线特征实现高精度里程计开启3D激光SLAM高精度时代在KITTI等权威数据集刷新精度纪录成为后续激光SLAM基石。2015ORB-SLAM问世视觉SLAM (特征)Mur-Artal等发布基于ORB特征的鲁棒SLAM系统支持实时闭环检测和重定位成为视觉SLAM领域的“黄金标准”开源实现影响广泛为众多机器人和AR应用所采用。2016ORB-SLAM2 发布视觉SLAM (多镜头)ORB-SLAM的改进版支持单目、立体、RGB-D相机多线程并行建图提升了实用性和适应性广泛用于学术研究、机器人导航和移动AR等场景。2016Google Cartographer开源激光SLAM (2D/3D)谷歌发布实时2D/3D激光IMU SLAM库Cartographer并开源集成入ROS推动业界2D SLAM算法标准化成为ROS生态常用方案对室内机器人导航影响巨大。2016DSO里程计发表视觉SLAM (直接)Engel等提出稀疏直接法视觉里程计DSO直接优化选定像素的光度误差无需特征提取再次证明直接法可达高精度避免特征点失效问题在HDR光照等场景表现出色拓宽了视觉里程计思路。2017VINS-Mono开源视觉惯性SLAMHKUST发布紧耦合视觉-IMU SLAM算法可在移动端实时运行基于滑动窗口优化推动了VIO普及证明手机、无人机上也能实现可靠的6DoF定位对移动AR和无人机导航意义重大。2018VINS-Fusion发布多传感器 SLAMVINS-Mono扩展版融合双目相机、IMU和GPS等传感器在因子图上统一优化提供了通用的多传感器SLAM框架方便实际机器人系统集成成为多源SLAM应用的里程碑。2018语义SLAM兴起语义SLAM研究者将深度学习物体检测与SLAM结合将语义标签墙、地板、行人等加入地图表示提升了地图的可解释性和定位鲁棒性将SLAM带入语义层次在家用服务机器人、无人驾驶等领域开始应用。2019OpenVSLAM开源开源视觉SLAM日本AIST发布可扩展视觉SLAM框架支持多种相机模型和数据集降低了SLAM研究的入门门槛方便算法验证与对比加速了学术创新和应用落地。2020ORB-SLAM3推出视觉SLAM (融合)ORB-SLAM系列第三版加入IMU紧耦合和多地图管理支持视觉惯性SLAM闭环首个通用SLAM系统同时支持单/双目、RGB-D和IMU性能全面领先标志视觉SLAM进入多传感融合阶段。2020LIO-SAM开源激光惯性SLAMShan等发布基于因子图优化的紧耦合激光-IMU里程计实现回环检测和重定位开源的实用激光SLAM方案精度高、易用性好广受工程界欢迎成为激光SLAM领域的新基准。2021LVI-SAM提出多传感器SLAMMIT将LIO-SAM与VINS融合推出激光视觉IMU紧耦合的SLAM系统大幅提升定位稳健性在光照变化或缺乏纹理时仍可靠工作确立了多模态SLAM的新标杆。2021Kimera平台发布稠密语义SLAMMIT发布Kimera实时语义稠密SLAM后扩展出Kimera-Multi多机器人版可构建带语义标注的稠密3D地图将SLAM地图从稀疏点提升为稠密语义模型适用于AR/VR和机器人任务表明SLAM开始具备环境理解能力。2022FAST-LIO2算法问世激光惯性SLAMHKUST发布FAST-LIO改进版优化EKF和点云处理大幅提高激光里程计速度可达数百Hz实现了激光SLAM的高频跟踪使高速无人机等应用成为可能奠定了高动态SLAM基础。2022KISS-ICP提出激光SLAM (ICP)波恩大学提出简洁高效的逐帧ICP激光里程计无需复杂特征提取和参数调优验证了极简SLAM思路的可行性在降低算法复杂度的同时保持高精度利于低算力设备部署SLAM。2022NeRF-SLAM探索学习型SLAM将**神经辐射场(NeRF)**引入SLAM用小型网络隐式表示地图并结合优化求解位姿开创了用神经隐式模型构建地图的新思路丰富了SLAM研究维度展示了SLAM地图表征从离散到连续的演进潜力。2023DynaVINS等动态SLAM动态SLAM提出IMU约束结合深度分割的方法在动态场景中实现鲁棒的视觉惯性SLAM初步解决了SLAM长期以来的动态环境干扰难题有力推动无人驾驶、服务机器人在动态场景下的应用可靠性。2023Kimera-Multi荣获大奖多机器人SLAMKimera扩展出的多机器人分布式稠密语义SLAM荣获2023年T-RO年度最佳论文标志多机器人SLAM技术走向成熟可实际应用于机器人团队协作和多用户AR共享等场景体现了协同SLAM的价值。2024大模型SLAM前沿探索前沿思路尝试将AIGC、通用大模型等思想引入SLAM如利用生成模型提供先验约束辅助机器人定位预示着SLAM可能与通用人工智能AGI相结合探索突破现有SLAM性能瓶颈的新路径代表未来发展方向之一。以上里程碑勾勒了SLAM从概念提出、概率滤波方法兴起到视觉SLAM大爆发再到多传感融合、语义与学习时代的演进脉络。每一项突破都为SLAM打开了新的应用空间早期EKF和粒子滤波解决了“SLAM能否实现”的问题图优化提高了可扩展性视觉SLAM降低了成本让移动设备也拥有空间感知激光SLAM提升了精度使无人车成为可能语义和深度学习赋予SLAM理解环境的能力。这些里程碑既是技术进步的坐标也是崭新的起点。展望未来SLAM将继续与语义AI、决策规划深度融合成为认知型机器人的关键组件同时通过云端协同和边缘计算扩展至更大尺度场景支撑更复杂的空间智能系统。可以预见在不远的将来无论是无人驾驶车满街运行、服务机器人进入千家万户还是元宇宙中虚实融合的世界SLAM都将扮演不可或缺的基石性角色。