无需微调!浙大开源FreeFix:同时增强3D高斯泼溅的保真度和泛化性!
点击下方卡片关注「3D视觉工坊」公众号选择星标干货第一时间送达来源3D视觉工坊「3D视觉从入门到精通」知识星球(点开有惊喜) 星球内有20多门3D视觉系统课程、300场顶会讲解、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研欢迎加入0. 论文信息标题FreeFix: Boosting 3D Gaussian Splatting via Fine-Tuning-Free Diffusion Models作者Hongyu Zhou, Zisen Shao, Sheng Miao, Pan Wang, Dongfeng Bai, Bingbing Liu, Yiyi Liao机构Zhejiang University、University of Maryland, College Park、Huawei原文链接https://arxiv.org/abs/2601.20857代码链接https://xdimlab.github.io/freefix1. 导读神经辐射场技术与3D高斯散布算法为视图合成技术带来了显著进步但它们仍依赖于大量输入数据并且在外推视图时效果往往会下降。近期的一些方法利用生成模型如扩散模型来提供额外辅助但这些方法在泛化能力与图像质量之间存在着权衡通过微调扩散模型以消除伪影虽然能提升图像质量但存在过拟合的风险而无需微调的方法虽然具有较好的泛化能力但图像质量通常较低。我们提出了FreeFix这一无需微调的解决方案它通过利用预训练的图像扩散模型来提升外推渲染的效果从而突破了这一权衡的局限。我们采用了2D与3D相结合的细化策略证明图像扩散模型可在无需使用成本高昂的视频扩散模型的情况下实现高效细化。此外我们还详细研究了用于2D细化的引导信号并提出了基于像素置信度的掩码机制以识别需要重点优化的区域。多项实验结果表明FreeFix能够提升多帧图像的一致性其性能可与经过微调的方法相媲美甚至更优同时仍保持良好的泛化能力。2. 效果展示我们介绍FreeFix这一方法它旨在提升3D高斯散斑渲染中推导视图的呈现效果而无需对扩散模型进行精细调整。在多个数据集上的实验表明FreeFix所提供的表现力可与大多数需要精细调整的先进方法相媲美甚至有过之而无不及。3. 引言新视图合成NVS是三维计算机视觉中的一个基本问题对推动混合现实与具身人工智能发展具有重要作用。神经辐射场NeRF与三维高斯泼溅3DGS已实现高保真渲染其中3DGS尤其因其实时渲染能力成为主流选择。然而这两种方法都需要密集采集的训练图像通常难以获得且在外推视角即超出训练视图插值范围的视角下容易产生伪影。这些局限阻碍了它们在自动驾驶仿真、自由视点用户体验等下游应用中的使用。近期工作探索了如何解决3DGS在外推视图渲染中的伪影问题。现有方法可分为两类在训练中添加正则化项或利用生成模型增加监督视图。正则化项通常源自三维先验或额外传感器但它们通常是手工设计且限于特定场景类型。此外其缺乏幻觉能力进一步限制了适用性。在利用扩散模型方面一些方法通过配对数据对模型进行微调例如使用稀疏激光雷达输入或带有伪影的外推渲染图来生成精细化图像。其中许多方法在特定领域数据集如自动驾驶数据集上训练这不可避免地损害了扩散模型的泛化能力。最近Difix3D在更广泛的三维数据集上微调SD Turbo提升了泛化性。然而整理三维数据所需的大量努力以及高昂的微调成本使得该方法耗时耗力难以扩展到其他扩散模型。另一类工作试图在不微调的情况下改进外推渲染通常在外推渲染的去噪步骤中提供外推渲染图作为引导。这保留了在大规模数据上训练的扩散模型的泛化能力但此类方法仍落后于专门针对任务进行微调的方法。鉴于泛化性与保真度之间的权衡我们提出能否在不牺牲泛化性的前提下利用扩散模型改进外推视图渲染为应对这一挑战我们专注于免微调方法并提升其在新视图合成外推任务中的有效性。这通过我们提出的2D-3D交错精细化策略结合用于免微调图像精细化的逐像素置信度引导来实现。具体而言给定一个已训练的3DGS我们采样一个外推视角渲染二维图像用二维图像扩散模型对其进行精细化然后将精细化后的图像通过更新3DGS整合回三维场景再处理下一个视角。这种2D-3D交错精细化确保了先前增强的视图能为后续的二维精细化提供信息并提升多视图一致性。重要的是我们引入了置信度引导的二维精细化从3DGS渲染的逐像素置信度图高亮出需要二维扩散模型进一步改进的区域。这与先前仅依赖渲染不透明度、让扩散模型自行识别伪影区域的免训练方法形成对比。虽然我们的置信度引导原则上可应用于视频扩散模型但先进的视频骨干网络通常计算成本更高且使用时间下采样这阻碍了逐像素引导的直接使用。我们表明我们的2D-3D交错优化策略在不依赖视频扩散模型的情况下也能实现一致的精细化图像。4. 主要贡献我们的贡献可总结如下1.我们提出了一种简单有效的方法用于增强3DGS的外推渲染无需微调扩散模型其核心是2D-3D交错精细化策略与逐像素置信度引导。2.我们的方法兼容多种扩散模型并能在多样场景内容中保持泛化性。3.实验结果表明我们的方法显著优于现有免微调方法并达到与基于训练的方法相当甚至更优的性能。5. 方法无需微调扩散模型即可提升3DGS在外推视图中的渲染质量。我们提出了一种交错策略结合2D与3D精细化以利用图像扩散模型生成多帧一致的结果如流程顶部所示。在2D精细化阶段我们还引入了置信度引导与整体引导以提升去噪结果的质量与一致性。6. 实验结果我们使用SDXL和Flux作为扩散骨干网络在LLFF、Mip-NeRF 360和Waymo数据集上评估FreeFix。这包括表1中的定量比较以及图5和图7中与基线方法的定性比较。尽管FreeFix仅使用图像扩散模型作为骨干且无需对扩散模型进行微调但在定量和定性评估中其性能仍与使用视频扩散模型或需要微调的方法相当甚至更优。具体而言使用不透明度掩码作为引导的ViewExtrapolator在LLFF上显示出轻微改进但相较于我们的置信度引导方案改进有限。此外它在Mip-NeRF 360和Waymo上未能提供改进。这是因为ViewExtrapolator使用一组训练视图中的最近视图作为参考视图在视频扩散模型中生成测试视图。虽然在前向场景的LLFF中使用最近训练视图作为SVD的参考视图表现良好测试视图更接近训练视图但这对Mip-NeRF 360和Waymo通常不成立因此ViewExtrapolator性能下降。Difix3D在我们的基线中展现出最佳的泛化能力和强大性能。FreeFix在LLFF和Mip-NeRF 360上超越了Difix3D同时在Waymo上提供相当的性能。我们将此归因于扩散模型的泛化性。尽管Difix3D在DLV3D上进行了微调可能遇到过与LLFF和Mip-NeRF 360类似的场景但数据集之间的领域差距仍削弱了Difix3D的泛化性。相比之下我们的方法保持了扩散模型从网络规模数据集中学到的原始泛化能力。对于Waymo数据集Difix3D在大型内部驾驶数据集上进行了微调其中驾驶场景高度结构化且类间差异较小使模型更易学习。7. 总结 未来工作在本文中我们提出了FreeFix一种无需微调扩散模型即可修复伪影并提升3DGS质量的方法。FreeFix在各种数据集上展示了最先进的性能并具备与未来更先进的扩散模型部署的强大兼容能力。然而FreeFix仍存在一定局限。当外推视图产生过多伪影且可信引导信息极少时它可能会遇到失败案例。此外3DGS的更新过程相对较慢且难以在数十个精细化步骤中收敛。这些挑战为未来工作提供了机遇以设计更鲁棒、高效的方法来实现三维重建与二维生成模型的集成。对更多实验结果和文章细节感兴趣的读者可以阅读一下论文原文~本文仅做学术分享如有侵权请联系删文。3D视觉工坊春节专属课程福利重磅来袭为回馈新老学员一路支持本次活动特推出重磅折扣福利所有课程统一享7折特惠其中10门课程支持一次性全部打包购买(限时福利仅需279元)春节7折特惠春节专属7折优惠微信扫码领取限时三天内使用3D视觉工坊所涉及课程的包括但不限于工业3D视觉、自动驾驶、SLAM、具身智能、扩散模型、无人机、大模型和3D视觉基础等。专属打包福利上图中的ROS2、相机标定、线结构光、3D缺陷检测、激光-视觉-IMU-GPS融合SLAM、VINS-Fusion、模型部署、3D目标检测、深度估计、多传感器融合这10门课程除单独购买享7折外也支持一次性全部购买限时福利仅需279元扫描下方二维码加入「3D视觉从入门到精通知识星球」一次性全部解锁扫码加入3D视觉从入门到精通知识星球活动咨询▲长按扫码添加小助理咨询更多

相关新闻

特惠!3D视觉工坊所有课程7折!加入星球可立享10门课程免费学习!

特惠!3D视觉工坊所有课程7折!加入星球可立享10门课程免费学习!

3D视觉工坊春节专属课程福利重磅来袭!为回馈新老学员一路支持,本次活动特推出重磅折扣福利,所有课程统一享7折特惠,其中10门课程支持一次性全部打包购买(限时福利仅需279元)!春节7折特惠春节专属7折优惠微信扫码领取&a…

2026/7/4 15:52:26 阅读更多 →
BGE-Large-Zh步骤详解:从Docker pull到热力图渲染的7个关键节点

BGE-Large-Zh步骤详解:从Docker pull到热力图渲染的7个关键节点

BGE-Large-Zh步骤详解:从Docker pull到热力图渲染的7个关键节点 1. 项目简介与核心价值 BGE-Large-Zh是一个专门为中文文本处理设计的语义向量化工具,基于强大的bge-large-zh-v1.5模型开发。这个工具能够将中文文本转换成计算机能够理解的数字向量&…

2026/5/17 5:27:38 阅读更多 →
Qwen3-Reranker-0.6B与嵌入式系统结合:物联网设备智能处理

Qwen3-Reranker-0.6B与嵌入式系统结合:物联网设备智能处理

Qwen3-Reranker-0.6B与嵌入式系统结合:物联网设备智能处理 1. 引言 你有没有遇到过这样的情况:家里的智能音箱总是听不懂你的指令,或者智能摄像头识别错了重要事件?这些问题的背后,其实是物联网设备在处理自然语言时…

2026/7/5 23:12:42 阅读更多 →

最新新闻

AI模型Web服务安全加固实战:从CSRF/XSS防护到生产部署

AI模型Web服务安全加固实战:从CSRF/XSS防护到生产部署

1. 项目概述:当AI视觉模型遇上Web安全最近在部署一个基于OFA(One-For-All)的图像语义蕴含模型服务时,我遇到了一个非常典型但又容易被忽视的问题:我们往往把绝大部分精力都花在了模型调优、接口性能优化上,…

2026/7/5 23:29:06 阅读更多 →
视频嵌入表示技术:从3D CNN到Transformer的实践指南

视频嵌入表示技术:从3D CNN到Transformer的实践指南

1. 视频嵌入表示生成方案概述视频嵌入表示(Video Embedding)是计算机视觉领域将原始视频数据转化为低维稠密向量的关键技术。不同于传统视频处理直接操作像素数据,嵌入表示通过深度学习模型提取视频的语义特征,形成固定长度的向量…

2026/7/5 23:29:06 阅读更多 →
GPT-4o与Claude 3.5 Sonnet模型选型实战指南

GPT-4o与Claude 3.5 Sonnet模型选型实战指南

该项目标题存在严重事实性错误与误导风险,不符合内容安全与专业规范要求。根据公开、权威、可验证的官方信息渠道(OpenAI官网、主流科技媒体如The Verge、TechCrunch、MIT Technology Review等2024年至今的持续追踪报道),截至目前…

2026/7/5 23:29:06 阅读更多 →
DC-DC降压转换器设计与PID控制优化实践

DC-DC降压转换器设计与PID控制优化实践

1. 项目背景与核心器件选型解析在电力电子领域,DC-DC降压转换器(Buck Converter)是最基础也最关键的拓扑结构之一。这次我们要实现的方案采用了171010550电源管理IC与PIC18F97J60微控制器的组合,这个搭配在工业控制领域颇具代表性…

2026/7/5 23:25:05 阅读更多 →
AutoUnipus:U校园全自动答题工具终极指南

AutoUnipus:U校园全自动答题工具终极指南

AutoUnipus:U校园全自动答题工具终极指南 【免费下载链接】AutoUnipus U校园脚本,支持全自动答题,百分百正确 2024最新版 项目地址: https://gitcode.com/gh_mirrors/au/AutoUnipus 面对繁重的在线学习任务,你是否还在为U校园平台的网课作业而烦恼…

2026/7/5 23:23:04 阅读更多 →
XXE漏洞深度解析:从XML外部实体注入原理到实战防御

XXE漏洞深度解析:从XML外部实体注入原理到实战防御

1. 项目概述:为什么XXE漏洞至今仍是“隐形杀手”?在Web安全领域,SQL注入、XSS这些名词大家耳熟能详,但提到XXE(XML External Entity Injection,XML外部实体注入),很多开发者甚至安全…

2026/7/5 23:19:03 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻