深度立体匹配综述2020年代的发展与挑战综述文献仓库文献信息Tosi F., Bartolomei L., Poggi M. (2025). A Survey on Deep Stereo Matching in the Twenties.International Journal of Computer Vision.文章目录深度立体匹配综述2020年代的发展与挑战1. 引言与背景1.1 立体匹配的发展历程1.2 核心挑战2020年代2. 深度立体匹配框架分类2.1 基础架构Foundational Architectures2.1.1 基于CNN的代价体聚合CNN-Based Cost Volume Aggregation2.1.2 神经架构搜索NAS for Stereo Matching2.1.3 基于迭代优化的架构Iterative Optimization-Based2.1.4 视觉Transformer架构Vision Transformer-Based2.1.5 马尔可夫随机场架构MRF-Based2.2 效率导向架构Efficiency-Oriented2.2.1 紧凑代价体表示2.2.2 高效代价体处理2.2.3 紧凑架构2.3 多任务深度架构Multi-Task2.3.1 语义立体匹配Semantic Stereo2.3.2 法线辅助立体匹配Normal-Assisted2.3.3 联合立体与光流估计Joint Stereo and Optical Flow2.4 超越可见光谱Beyond Visible Spectrum2.4.1 深度引导传感器立体匹配Depth-Guided2.4.2 事件相机立体匹配Event-Camera2.4.3 门控立体匹配Gated Stereo2.4.4 结构光投影Pattern Projection2.4.5 跨光谱立体网络Cross-Spectral3. 挑战与解决方案3.1 域迁移Domain Shift3.1.1 零样本泛化Zero-Shot Generalization3.1.2 离线适应Offline Adaptation3.1.3 在线适应Online Adaptation3.2 过度平滑Over-Smoothing3.2.1 单峰分布建模3.2.2 多峰分布建模3.3 透明与反射物体Transparent Reflective3.4 非对称立体Asymmetric Stereo4. 实验结果与分析4.1 KITTI 2015 基准测试4.2 Middlebury v3 基准测试4.3 Robust Vision Challenge (RVC) 趋势分析4.4 Booster 数据集高难度基准4.5 DSEC 事件相机基准5. 讨论与未来方向5.1 架构设计趋势5.2 超越RGB的趋势5.3 持续开放挑战5.4 基础模型Foundation Models6. 2020年代新数据集6.1 真实世界数据集6.2 合成数据集7. 评估指标8. 关键结论与建议8.1 技术演进总结8.2 实践建议8.3 开放研究问题1. 引言与背景1.1 立体匹配的发展历程近50年历史立体匹配从校正图像对中估计密集视差图是计算机视觉的基础问题深度学习革命2010年代末端到端深度神经网络成为主导范式本文覆盖范围2020年代2020-2024的最新进展涵盖100项顶级会议/期刊成果1.2 核心挑战2020年代域迁移Domain Shift合成数据与真实数据之间的泛化问题过度平滑Over-smoothing深度网络在物体边界处的深度过平滑问题高分辨率与实时性资源受限设备上的高效处理需求多模态融合结合深度传感器、非可见光相机、事件相机等2. 深度立体匹配框架分类2.1 基础架构Foundational Architectures2.1.1 基于CNN的代价体聚合CNN-Based Cost Volume Aggregation方法年份核心创新AANet(Xu Zhang, 2020)2020用可变形卷积替代昂贵3D卷积解决边缘膨胀问题WaveletStereo(Yang et al., 2020)2020学习视差图的小波系数而非直接估计分低频/高频子模块CFNet(Shen et al., 2021)2021融合代价体表示 级联代价体基于方差的不确定性估计UASNet(Mao et al., 2021)2021不确定性分布引导的范围预测(URP) 不确定性采样(UDS)PCW-Net(Shen et al., 2022)2022多尺度代价体融合 基于warping volume的视差细化SEDNet(Chen et al., 2023)2023联合视差与不确定性估计KL散度匹配误差分布技术要点2D架构使用相关层构建3D代价体用2D卷积处理3D架构拼接/计算全视差范围的特征差异用3D卷积显式编码几何2.1.2 神经架构搜索NAS for Stereo Matching方法年份核心创新LEAStereo(Cheng et al., 2020)2020首个端到端分层NAS框架嵌入几何先验EASNet(Wang et al., 2022)2022渐进收缩训练策略支持多资源配置的子网络提取关键挑战立体匹配计算密集传统NAS搜索空间过大解决方案引入任务特定先验层次化搜索细胞级网络级2.1.3 基于迭代优化的架构Iterative Optimization-Based游戏改变者受RAFT光流估计启发绕过显式代价体聚合迭代更新视差估计核心架构RAFT-Stereo(Lipson et al., 2021)三大组件特征提取器Feature Encoder相关金字塔Correlation Pyramid轻量级3D代价体单矩阵乘法计算ConvGRU更新算子迭代检索局部代价值多分辨率信息传播优势直接使用高分辨率代价体无3D卷积计算负担无需预定义视差范围灵活权衡精度与速度可变迭代次数后续改进方法方法年份核心贡献ORStereo(Hu et al., 2021)2021两阶段方法下采样视差估计 分块细化RRUNLRCREStereo(Li et al., 2022)2022自适应组相关层(AGCL)可变形搜索窗口EAI-Stereo(Zhao et al., 2022)2022错误感知细化模块结合左右warping与学习-based上采样IGEV-Stereo(Xu et al., 2023)2023组合几何编码体(CGEV)GEV All-Pairs CorrelationsDLNR(Zhao et al., 2023)2023解耦LSTM 归一化细化 多尺度通道注意力TransformerCREStereo(Jing et al., 2023)2023不确定性引导自适应相关(UGAC)内容感知warpingSelective-Stereo(Wang et al., 2024)2024选择性循环单元(SRU) 上下文空间注意力(CSA)Any-Stereo(Liang Li, 2024)2024隐式邻居掩码函数(INMF)连续视差表示XR-Stereo(Cheng et al., 2024)2024利用视频流时间信息相机位姿warping作为热启动MC-Stereo(Feng et al., 2024)2024多峰查找策略 级联搜索范围MoCha-Stereo(Chen et al., 2024)2024模体通道注意力(MCA)保留几何边缘细节ICGNet(Gong et al., 2020)2020内视图与交叉视图几何约束关键点检测与匹配2.1.4 视觉Transformer架构Vision Transformer-Based范式转变将立体匹配建模为序列到序列问题利用注意力机制建立对应关系方法年份核心创新STTR(Li et al., 2021)2021首个Transformer架构极线自注意力左右交叉注意力相对位置编码唯一性约束CEST(Guo et al., 2022)2022上下文增强路径(CEP)粗到细策略最优传输约束ChiTransformer(Su Ji, 2022)2022自监督方法并行ViT流深度线索校正块Dynamic-Stereo(Karaev et al., 2023)2023时空Transformer空间-视角-时间注意力视频时序一致性GMStereo(Xu et al., 2023)2023统一光流、校正/未校正立体匹配无参数任务特定匹配层CroCo-Stereo(Weinzaepfel et al., 2023)2023大规模预训练跨视图完成预训练任务DPT头ELFNet(Lou et al., 2023)2023融合代价体与Transformer范式深度证据学习估计不确定性GOAT(Liu et al., 2024)2024并行视差与遮挡估计(PDO)迭代遮挡感知全局聚合(OGA)2.1.5 马尔可夫随机场架构MRF-Based方法年份核心创新LBPS(Knobelreiter et al., 2020)2020可微分截断最大积信念传播层UNet提取特征NMRF(Guan et al., 2024)2024完全数据驱动神经MRF推理视差提议网络(DPN)学习势函数与消息传递2.2 效率导向架构Efficiency-Oriented2.2.1 紧凑代价体表示方法年份策略Fast DS-CS(Yee Chakrabarti, 2020)2020传统匹配代价 代价签名低维特征向量DecNet(Yao et al., 2021)2021分解模型极低分辨率密集匹配 高分辨率稀疏匹配ACVNet(Xu et al., 2022)2022注意力级联代价体自适应块匹配PCVNet(Zeng et al., 2023)2023参数化代价体多高斯分布编码Bi3D(Badki et al., 2020)2020二分类任务物体比给定深度平面近或远IINet(Li et al., 2024)20242D隐式网络快速多尺度分数体(FMSV)2.2.2 高效代价体处理方法年份策略CasStereo(Gu et al., 2020)2020级联代价体特征金字塔逐阶段缩小深度范围BGNet(Xu et al., 2021)2021学习双边网格边缘保持上采样MABNet(Xing et al., 2020)2020多分支可调瓶颈(MAB)3D卷积分解TemporalStereo(Zhang et al., 2023)2023时空立体稀疏代价体统计融合2.2.3 紧凑架构方法年份特点StereoVAE(Chang et al., 2023)2023VAE上采样细化传统算法生成粗视差MobileStereoNet(Shamsafar et al., 2022)2022MobileNetV1/V2模块“交错代价体”PBCStereo(Cai et al., 2022)2022全二值化网络插值二值卷积(IBC)FADNet(Wang et al., 2020)2020点相关层多尺度残差学习HITNet(Tankovich et al., 2021)2021平面瓦片表示可微分2D几何传播CoEX(Bangunharcana et al., 2021)2021引导代价体激励(GCE)MobileNetV2骨干Top-k选择AAFS(Chang et al., 2020)2020深度可分离卷积注意力感知特征聚合MADNet 2(Poggi Tosi, 2024)2024RAFT-Stereo全对相关模块精简增强2.3 多任务深度架构Multi-Task2.3.1 语义立体匹配Semantic Stereo方法年份核心设计RTS²Net(Dovesi et al., 2020)2020多阶段粗到细金字塔解码器共享编码器协同细化模块SGNet(Chen et al., 2020)2020置信度模块残差模块语义边界感知损失2.3.2 法线辅助立体匹配Normal-Assisted方法年份核心设计NA-Stereo(Kusupati et al., 2020)2020法线估计网络(NNet)联合优化深度与法线一致性损失2.3.3 联合立体与光流估计Joint Stereo and Optical Flow方法年份核心设计DWARF(Aleotti et al., 2020)2020紧凑粗到细架构3D相关层多尺度相关体Effiscene(Jiao et al., 2021)2021无监督分解立体深度光流相机位姿运动分割Feature-Level Collaboration(Chi et al., 2021)2021特征级协作位姿解码器2.4 超越可见光谱Beyond Visible Spectrum2.4.1 深度引导传感器立体匹配Depth-Guided方法年份传感器融合策略Pseudo-LiDAR(You et al., 2020)2020深度代价体图-based深度校正LiStereo(Zhang et al., 2020)2020双分支图像分支LiDAR分支S³(Huang et al., 2021)2021稀疏信号超密度置信度加权LSMD-Net(Yin et al., 2022)2022混合密度网络拉普拉斯分布建模VPP-Stereo(Bartolomei et al., 2023)2023主动传感器深度幻觉图案到图像SDG-Depth(Li et al., 2024)2024稀疏LiDAR可变形传播学习视差-深度转换2.4.2 事件相机立体匹配Event-Camera方法年份事件处理策略DDES(Tulyakov et al., 2019)2019事件队列时序全连接层(MLP)SE-CFF(Nam et al., 2022)2022ConcentrationNet未来事件知识蒸馏SCSNet(Cho Yoon, 2022)2022可微分事件选择邻居交叉相似特征(NCSF)DTC-SPADE(Zhang et al., 2022)2022离散时间卷积(DTC)SPADE归一化ADES(Cho et al., 2023)2023域适应EventGAN生成伪事件EI-Stereo(Mostafavi et al., 2021)2021事件-强度循环网络迭代处理EFS(Cho Yoon, 2022)2022跨模态特征融合多尺度代价体SAFE(Chen et al., 2024)2024三分支非对称匹配图像SfM事件SfM2.4.3 门控立体匹配Gated Stereo方法年份核心设计Gated Stereo(Walz et al., 2023)2023单目分支(飞行时间) 立体分支半监督训练2.4.4 结构光投影Pattern Projection方法年份核心创新ActiveStereoNet(Zhang et al., 2018)2018局部对比度归一化(LCN)无效化网络Polka Lines(Baek Heide, 2021)2021联合学习DOE图案与重建网络ActiveZero(Liu et al., 2022)2022混合域学习时序IR重投影损失MonoStereoFusion(Xu et al., 2022)2022单目结构光 双目立体融合ActiveZero(Chen et al., 2023)2023光照不变特征匹配置信度深度补全2.4.5 跨光谱立体网络Cross-Spectral方法年份光谱组合CS-Stereo(Zhi et al., 2018)2018RGB NIR材料感知UCSS(Liang et al., 2019)2019F-cycleGAN光谱转换SS-MCE(Walters et al., 2021)2021自监督多光谱对应估计RGB-MS(Tosi et al., 2022)2022RGB 多光谱(10波段)分辨率差异DPS-Net(Tian et al., 2023)2023RGB 偏振多域相似性Gated-RCCB(Brucker et al., 2024)2024RCCB 门控NIR3. 挑战与解决方案3.1 域迁移Domain Shift问题定义训练域与测试域之间的性能下降颜色、光照、相机参数、视差范围差异3.1.1 零样本泛化Zero-Shot Generalization类别方法年份策略域无关特征建模DSMNet2020域归一化(DN)层空间-通道特征正则化FCStereo2022立体对比特征(SCF)损失 立体选择性白化(SSW)GraftNet2022嫁接预训练模型的广谱特征ITSA2022信息论损失自动避免捷径学习HVT2023分层视觉变换全局/局部/像素级增强MRL-Stereo2023掩码表示学习重建掩码图像非参数代价体MS-Nets2020传统匹配函数(NCC/ZSAD/CENSUS/SOBEL)ARStereo2022Census变换 语义上下文特征几何线索融合NDR2021/2024神经视差细化传统算法深度学习EVHS2023视觉-惯性里程计线索扩展真实世界数据生成LSSI2020单目深度网络(MiDaS)生成伪标签NS-Stereo2023NeRF渲染任意立体对立体三元组知识迁移DKT-Stereo2024冻结教师EMA教师学生网络滤波与集成3.1.2 离线适应Offline Adaptation方法年份策略Flow2Stereo2020光流与立体联合学习教师-学生框架Reversing-Stereo2020单目补全网络生成伪标签Revealing-Stereo2021遮挡感知蒸馏与融合TiO-Depth2023二合一自监督单目双目PASMNet2023视差注意力机制(PAM)MultiscopicVision2021多图像自监督StereoGAN2020GAN-based域翻译保持立体一致性AdaStereo2021渐进颜色迁移 代价归一化UCFNet2023不确定性过滤伪标签RAG2022NAS发现域特定结构场景路由器3.1.3 在线适应Online Adaptation方法年份策略AoHNet2020Adapt-or-Hold机制传统算法伪标签MAD2021快速适应传统算法引导PointFix2022MAML元学习PointFixNet修正错误像素FedStereo2024联邦在线适应分布式权重聚合3.2 过度平滑Over-Smoothing问题根源Soft argmax操作导致多峰分布被平均边界处视差估计介于前景与背景之间3.2.1 单峰分布建模方法年份策略SM-CDE2019单峰加权平均高斯分布交叉熵损失AcfNet2020自适应单峰分布置信度估计调制方差立体Focal lossCDN2020连续分布Wasserstein距离损失LaC2022局部相似模式(LSP)代价自重组(CSR)3.2.2 多峰分布建模方法年份策略SMD-Nets2021开创性工作双峰拉普拉斯混合密度选择最高密度模式ADL2024自适应多峰交叉熵局部聚类确定模式数主导模式估计器(DME)关键见解显式建模多峰分布可恢复清晰的深度不连续性见图5对比3.3 透明与反射物体Transparent Reflective方法年份策略DDF2020立体视差与结构光深度融合TA-Stereo2023分割掩码辅助强制外观一致Depth4ToM2023分割修复单目深度伪标签融合3.4 非对称立体Asymmetric Stereo方法年份策略VI-Stereo2020UNet上采样低分辨率图像NDR2021/2024下采样传统算法上采样DA-AS2022特征度量一致性替代光度损失SASS2023空间自适应自相似性对比学习4. 实验结果与分析4.1 KITTI 2015 基准测试观察结论2023-2024年方法如Selective-IGEV超越LEAStereo保持近4年记录高效架构与SOTA差距显著缩小实用价值提升4.2 Middlebury v3 基准测试关键发现RAFT-Stereo的游戏改变效应前6名中5个为其衍生方法首次实现非遮挡像素平均误差低于1像素Selective-IGEV全像素误差仍1.5像素遮挡区域仍是挑战4.3 Robust Vision Challenge (RVC) 趋势分析年份冠军方法关键进展2018iResNet/PSMNet端到端深度学习初期2020CFNet超越2010年代所有网络2022RAFT-Stereo衍生迭代优化范式确立Middlebury bad1误差45% → 26% → 16.5%4.4 Booster 数据集高难度基准特点1200万像素高分辨率 非朗伯面物体观察结论PCVNet领先参数化代价体对透明/反射物体鲁棒微调效果显著SOTA模型可通过学习适应非朗伯面类别2-3误差高透明/反射物体仍是开放挑战4.5 DSEC 事件相机基准RGB事件融合方法SCSNet, EI-Stereo显著优于纯事件方法分辨率低(VGA) 场景多样性有限 → 误差绝对值较低事件相机立体匹配仍有发展空间5. 讨论与未来方向5.1 架构设计趋势RAFT-Stereo范式 dominance迭代优化成为主流预计更多衍生工作持续创新需求NMRF等最新方法证明仍有提升空间5.2 超越RGB的趋势热成像、多光谱、事件相机等模态融合日益重要需求更多在线基准测试以巩固进展5.3 持续开放挑战超高分辨率Booster显示1200万像素仍具挑战非朗伯面缺乏训练数据处理方法次优恶劣天气鲁棒性仍需提升5.4 基础模型Foundation Models现状单目深度估计已有基础模型Depth Anything立体匹配尚无机遇将立体匹配从简单模式匹配提升到更高层次理解可能解决域迁移、非朗伯面等挑战6. 2020年代新数据集6.1 真实世界数据集数据集年份特点分辨率场景Middlebury 20212021移动设备采集多光照/曝光1920×1080室内Booster2022高分辨率非朗伯面深度时空立体标注12Mpx室内Holopix50k2020野外立体图像无GT~0.74Mpx移动摄影InStereo2K2020室内大规模结构光GT1080×860室内CATS2017RGB热成像LiDAR1280×960/640×480室内/室外MVSEC2018事件相机灰度LiDAR346×260/752×480车载/无人机DSEC2021驾驶场景宽基线事件RGB1440×1080/640×480驾驶M3ED2023多机器人平台事件RGBLiDAR1280×720/1280×800车载/无人机/机器人Gated Stereo2023门控成像RGB长距离1280×720/1920×1080驾驶RGB-MS2022RGB多光谱(10波段)分辨率不平衡12.4MP/2.2MP室内MS²2023RGBNIR热成像LiDAR2448×2048等驾驶RPS2023偏振立体1280×960室内/室外6.2 合成数据集数据集年份引擎特点HR-VS2019Carla高分辨率(2056×2464)驾驶场景Virtual KITTI 22020Unity多天气相机旋转变化TartanAir2020Unreal百万帧挑战场景低光、恶劣天气UnrealStereo4K2021UnrealCV4K分辨率域泛化测试IRS2021Unreal室内机器人表面法线视差CREStereo2022BlenderShapeNet物体复杂光照SimStereo2022PBR渲染主动被动帧对比SimSIN2022多数据集50万帧最大室内合成数据集之一Spring2023Blender高分辨率场景流光流立体DynamicReplica2023Replica动态人体/动物时序一致性7. 评估指标指标公式说明EPE(End-Point Error)$\frac{1}{N}\sum_pD_p - D_p^{gt}RMSE1 N ∑ p ( D p − D p g t ) 2 \sqrt{\frac{1}{N}\sum_p (D_p - D_p^{gt})^2}N1∑p(Dp−Dpgt)2均方根误差bad-τ$\frac{1}{N}\sum_p \delta(D_p - D_p^{gt}D1 (KITTI)上述bad-3且5%GT值异常值检测8. 关键结论与建议8.1 技术演进总结2010年代末CNN-based代价体聚合2D/3D架构↓2020年初NAS自动化架构搜索↓2021年RAFT-Stereo引入迭代优化范式 [游戏改变者]↓2021-2022Vision Transformer应用于立体匹配↓2022-2024多模态融合事件、热成像、结构光等↓2024基础模型探索效率与精度并重8.2 实践建议高精度应用选择RAFT-Stereo及其改进版IGEV-Stereo, Selective-Stereo等实时应用考虑MobileStereoNet, HITNet, MADNet 2等高效架构域泛化采用迭代架构RAFT-Stereo系列或域无关特征方法DSMNet, FCStereo高分辨率使用Any-Stereo或级联/分解方法非朗伯面结合分割掩码Depth4ToM或多模态融合非对称输入使用NDR或DA-AS8.3 开放研究问题如何构建立体匹配的基础模型如何有效处理超高分辨率4K图像如何从有限的真实世界标注中学习如何实现真正的全天候鲁棒立体匹配如何将立体匹配与更高层次的3D理解结合