点击下方卡片关注「3D视觉工坊」公众号选择星标干货第一时间送达来源3D视觉工坊「3D视觉从入门到精通」知识星球(点开有惊喜) 星球内有20多门3D视觉系统课程、300场顶会讲解、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研欢迎加入0. 论文信息标题FreeFix: Boosting 3D Gaussian Splatting via Fine-Tuning-Free Diffusion Models作者Hongyu Zhou, Zisen Shao, Sheng Miao, Pan Wang, Dongfeng Bai, Bingbing Liu, Yiyi Liao机构Zhejiang University、University of Maryland, College Park、Huawei原文链接https://arxiv.org/abs/2601.20857代码链接https://xdimlab.github.io/freefix1. 导读神经辐射场技术与3D高斯散布算法为视图合成技术带来了显著进步但它们仍依赖于大量输入数据并且在外推视图时效果往往会下降。近期的一些方法利用生成模型如扩散模型来提供额外辅助但这些方法在泛化能力与图像质量之间存在着权衡通过微调扩散模型以消除伪影虽然能提升图像质量但存在过拟合的风险而无需微调的方法虽然具有较好的泛化能力但图像质量通常较低。我们提出了FreeFix这一无需微调的解决方案它通过利用预训练的图像扩散模型来提升外推渲染的效果从而突破了这一权衡的局限。我们采用了2D与3D相结合的细化策略证明图像扩散模型可在无需使用成本高昂的视频扩散模型的情况下实现高效细化。此外我们还详细研究了用于2D细化的引导信号并提出了基于像素置信度的掩码机制以识别需要重点优化的区域。多项实验结果表明FreeFix能够提升多帧图像的一致性其性能可与经过微调的方法相媲美甚至更优同时仍保持良好的泛化能力。2. 效果展示我们介绍FreeFix这一方法它旨在提升3D高斯散斑渲染中推导视图的呈现效果而无需对扩散模型进行精细调整。在多个数据集上的实验表明FreeFix所提供的表现力可与大多数需要精细调整的先进方法相媲美甚至有过之而无不及。3. 引言新视图合成NVS是三维计算机视觉中的一个基本问题对推动混合现实与具身人工智能发展具有重要作用。神经辐射场NeRF与三维高斯泼溅3DGS已实现高保真渲染其中3DGS尤其因其实时渲染能力成为主流选择。然而这两种方法都需要密集采集的训练图像通常难以获得且在外推视角即超出训练视图插值范围的视角下容易产生伪影。这些局限阻碍了它们在自动驾驶仿真、自由视点用户体验等下游应用中的使用。近期工作探索了如何解决3DGS在外推视图渲染中的伪影问题。现有方法可分为两类在训练中添加正则化项或利用生成模型增加监督视图。正则化项通常源自三维先验或额外传感器但它们通常是手工设计且限于特定场景类型。此外其缺乏幻觉能力进一步限制了适用性。在利用扩散模型方面一些方法通过配对数据对模型进行微调例如使用稀疏激光雷达输入或带有伪影的外推渲染图来生成精细化图像。其中许多方法在特定领域数据集如自动驾驶数据集上训练这不可避免地损害了扩散模型的泛化能力。最近Difix3D在更广泛的三维数据集上微调SD Turbo提升了泛化性。然而整理三维数据所需的大量努力以及高昂的微调成本使得该方法耗时耗力难以扩展到其他扩散模型。另一类工作试图在不微调的情况下改进外推渲染通常在外推渲染的去噪步骤中提供外推渲染图作为引导。这保留了在大规模数据上训练的扩散模型的泛化能力但此类方法仍落后于专门针对任务进行微调的方法。鉴于泛化性与保真度之间的权衡我们提出能否在不牺牲泛化性的前提下利用扩散模型改进外推视图渲染为应对这一挑战我们专注于免微调方法并提升其在新视图合成外推任务中的有效性。这通过我们提出的2D-3D交错精细化策略结合用于免微调图像精细化的逐像素置信度引导来实现。具体而言给定一个已训练的3DGS我们采样一个外推视角渲染二维图像用二维图像扩散模型对其进行精细化然后将精细化后的图像通过更新3DGS整合回三维场景再处理下一个视角。这种2D-3D交错精细化确保了先前增强的视图能为后续的二维精细化提供信息并提升多视图一致性。重要的是我们引入了置信度引导的二维精细化从3DGS渲染的逐像素置信度图高亮出需要二维扩散模型进一步改进的区域。这与先前仅依赖渲染不透明度、让扩散模型自行识别伪影区域的免训练方法形成对比。虽然我们的置信度引导原则上可应用于视频扩散模型但先进的视频骨干网络通常计算成本更高且使用时间下采样这阻碍了逐像素引导的直接使用。我们表明我们的2D-3D交错优化策略在不依赖视频扩散模型的情况下也能实现一致的精细化图像。4. 主要贡献我们的贡献可总结如下1.我们提出了一种简单有效的方法用于增强3DGS的外推渲染无需微调扩散模型其核心是2D-3D交错精细化策略与逐像素置信度引导。2.我们的方法兼容多种扩散模型并能在多样场景内容中保持泛化性。3.实验结果表明我们的方法显著优于现有免微调方法并达到与基于训练的方法相当甚至更优的性能。5. 方法无需微调扩散模型即可提升3DGS在外推视图中的渲染质量。我们提出了一种交错策略结合2D与3D精细化以利用图像扩散模型生成多帧一致的结果如流程顶部所示。在2D精细化阶段我们还引入了置信度引导与整体引导以提升去噪结果的质量与一致性。6. 实验结果我们使用SDXL和Flux作为扩散骨干网络在LLFF、Mip-NeRF 360和Waymo数据集上评估FreeFix。这包括表1中的定量比较以及图5和图7中与基线方法的定性比较。尽管FreeFix仅使用图像扩散模型作为骨干且无需对扩散模型进行微调但在定量和定性评估中其性能仍与使用视频扩散模型或需要微调的方法相当甚至更优。具体而言使用不透明度掩码作为引导的ViewExtrapolator在LLFF上显示出轻微改进但相较于我们的置信度引导方案改进有限。此外它在Mip-NeRF 360和Waymo上未能提供改进。这是因为ViewExtrapolator使用一组训练视图中的最近视图作为参考视图在视频扩散模型中生成测试视图。虽然在前向场景的LLFF中使用最近训练视图作为SVD的参考视图表现良好测试视图更接近训练视图但这对Mip-NeRF 360和Waymo通常不成立因此ViewExtrapolator性能下降。Difix3D在我们的基线中展现出最佳的泛化能力和强大性能。FreeFix在LLFF和Mip-NeRF 360上超越了Difix3D同时在Waymo上提供相当的性能。我们将此归因于扩散模型的泛化性。尽管Difix3D在DLV3D上进行了微调可能遇到过与LLFF和Mip-NeRF 360类似的场景但数据集之间的领域差距仍削弱了Difix3D的泛化性。相比之下我们的方法保持了扩散模型从网络规模数据集中学到的原始泛化能力。对于Waymo数据集Difix3D在大型内部驾驶数据集上进行了微调其中驾驶场景高度结构化且类间差异较小使模型更易学习。7. 总结 未来工作在本文中我们提出了FreeFix一种无需微调扩散模型即可修复伪影并提升3DGS质量的方法。FreeFix在各种数据集上展示了最先进的性能并具备与未来更先进的扩散模型部署的强大兼容能力。然而FreeFix仍存在一定局限。当外推视图产生过多伪影且可信引导信息极少时它可能会遇到失败案例。此外3DGS的更新过程相对较慢且难以在数十个精细化步骤中收敛。这些挑战为未来工作提供了机遇以设计更鲁棒、高效的方法来实现三维重建与二维生成模型的集成。对更多实验结果和文章细节感兴趣的读者可以阅读一下论文原文~本文仅做学术分享如有侵权请联系删文。3D视觉工坊春节专属课程福利重磅来袭为回馈新老学员一路支持本次活动特推出重磅折扣福利所有课程统一享7折特惠其中10门课程支持一次性全部打包购买(限时福利仅需279元)春节7折特惠春节专属7折优惠微信扫码领取限时三天内使用3D视觉工坊所涉及课程的包括但不限于工业3D视觉、自动驾驶、SLAM、具身智能、扩散模型、无人机、大模型和3D视觉基础等。专属打包福利上图中的ROS2、相机标定、线结构光、3D缺陷检测、激光-视觉-IMU-GPS融合SLAM、VINS-Fusion、模型部署、3D目标检测、深度估计、多传感器融合这10门课程除单独购买享7折外也支持一次性全部购买限时福利仅需279元扫描下方二维码加入「3D视觉从入门到精通知识星球」一次性全部解锁扫码加入3D视觉从入门到精通知识星球活动咨询▲长按扫码添加小助理咨询更多