FoundIR: Unleashing Million-scale Training Data to Advance Foundation Models-ICCV2025-尧图手机网站定制

Paperhttps://arxiv.org/pdf/2412.01427Codehttps://github.com/House-Leo/FoundIRBaselineConditional Diffusion文章目录前言3. Million-scale Dataset for Foundation Model3.1. Data collection pipeline3.2. Data alignment pipeline3.3. Dataset statistics and features4. Proposed Method: FoundIR4.1. Degradation-agnostic generalist model4.2. Incremental learning for model training4.3. Degradation-aware specialist model5. Experiments5.1 Implementation details5.2 Comparisons with the state of the art5.3. Ablation analysis and discussion6. Conclusion前言问题现有的方法在现实场景中存在泛化瓶颈因为它们大多是在退化有限的小规模合成数据集上训练的。因此迫切需要大规模的高质量真实世界训练数据以促进图像恢复基础模型的出现。有了提出的大规模数据集我们的重点转移到探索图像恢复基础模型的可行解决方案。这给我们带来了两个关键问题(i) 我们如何制定一个强大的模型来处理更多现实世界的退化类型并以此为基础(ii) 当面对百万规模的数据时我们如何更好地训练这个模型?贡献数据集为了方便成对数据采集我们搭建了一个机电一体化拍摄系统。通过多轮运行该系统我们调整了内部相机设置和外部成像条件来捕捉各种退化并进一步提出了避免机械误差的数据对齐策略。与现有的训练数据相比我们提出的数据集具有双重优势:(i) 具有更大规模的真实场景(ii) 具有更高多样性的退化类型。模型FoundIR我们首先制定了一个基于扩散的通才模型来学习退化不可知表示以便学习到的特征对复杂的现实世界场景具有鲁棒的。注意在大规模数据训练中引入了增量学习策略来克服潜在的灾难性遗忘问题。考虑到现实场景中不同退化的特征我们进一步结合退化感知专家模型来改进模型的恢复能力以获得高质量的输出。3. Million-scale Dataset for Foundation Model3.1. Data collection pipeline在整个拍摄过程中我们使用两个远程应用程序 (GVM Slider 和 Imaging Edge Mobile) 分别控制电动滑轨和相机快门。在这里我们的数据收集 pipeline 可以分为三个步骤(1) 捕获GT数据; (2) 利用相机内部设置获取LQ数据; (3) 利用外部成像条件获取LQ数据。1GT capture为了从更多样化的场景中捕获GT数据我们使用120◦广角拍摄模式将电动滑轨上的相机从起点X移动到终点Y。由于相机在加速和减速阶段是不稳定的所以我们只选择静止和匀速运动阶段的帧作为GT图像。在静态阶段为了获得无噪点的GT图像我们根据环境照度调整快门速度直接以较低的ISO值(ISO≤300) 捕获GT图像。在匀速运动阶段我们使用预设的快门速度(例如160)捕获GT序列并在数据的后处理中仔细选择模糊GT帧。2LQ capture with internal settings在现实场景中各种退化(例如噪声模糊和低光)对相机设置(例如ISO值和快门速度(ST))高度敏感。为了在第二轮中全面捕捉这些 LQ 图像我们设计了一系列拍摄方案。For noisy image我们为每个场景调整 30 个不同的相机参数 (ISO: 800 ~ 20,000 和 ST:)。For blurry images caused by defocusing我们通过调整不同的对焦模式(例如AF-S, AF-A, AF-C和MF)来多次捕捉相同的场景。For blurry images caused by camera and object movements我们使用高帧率(240帧/秒)相机捕捉模拟数据。在 [59] 之后我们对捕获的视频应用帧插值并通过在时间窗口上平均连续帧来生成模糊图像。For low-light images我们使用最低的ISO值(即ISO 100)并设置不同的STs()来捕获不同照明强度的图像。3LQ capture with external conditions为了覆盖更广泛的真实退化数据我们通过改变外部成像环境在第三轮中捕获 LQ 数据。事实上由外部因素(如光照和天气)的变化引起的图像退化更具有挑战性。For ambient illumination我们通过关灯、拉上窗帘等一系列遮挡光源的活动来捕捉室内场景中的弱光图像。此外考虑到现实世界低光条件下的图像退化具有多样性和耦合性我们同时增加了 Round II 的设置以捕获更复杂的多种退化因素共存的情况如低光噪声、低光模糊、低光模糊噪声。除了光照条件外我们还引入了外部干扰物来模拟恶劣天气条件的影响。Rain streaks我们使用电动洒水装置来产生雨条这是好莱坞电影工业中广泛使用的模拟降雨场景的技术。Raindrop我们在相机前放置一块有水滴的玻璃板 (厚度为3毫米)。通过停止喷水并移除有雨滴的玻璃我们捕捉到相应的无雨背景。为了保证数据的多样性低光雨的采集也同时考虑了光照和天气条件。3.2. Data alignment pipeline由于我们需要运行系统多轮来收集大规模配对数据因此确保图像序列的严格空间对齐至关重要。静态阶段的数据可以自然地用作对齐图像。然而均匀运动阶段需要手动选择每个序列的初始帧和最终帧这很容易导致不可避免的偏差这种偏差会导致每个GT-LQ帧之间的不对齐。为了缓解这个问题我们在均匀移动阶段前后分别放置可识别的参考对象作为 start-marker 和 end-marker。换句话说一旦开始标记消失我们就以帧的方式从均匀移动阶段手动选择对齐的 GT-LQ 帧直到 start-marker 出现在减速阶段。尽管在每轮相同的滑块速度下捕获的 GT 和 LQ 序列仍然表现出一些不可预测的时间对齐误差。为了解决这个问题我们引入了一种匹配对齐策略matching alignment strategy多次捕捉每个场景。图2显示了该策略的一个示例我们重复捕获三个GT序列和三个LQ序列并计算每个序列中开始标记出现和消失之间的时间间隔从而得到六个不同的时间间隔。然后我们将第二个GT序列与第一个LQ序列进行匹配其时间间隔的绝对误差最小(0.1s)。3.3. Dataset statistics and features使用上述 pipelines,我们总共捕获了大约 8,500 个场景其中包括 3,800 个室内场景和 4,700 个室外场景。我们涵盖了20 种类型的退化其中 7 种是单独的13 种是耦合的。为了可视化不同退化类型的数量分布图3(b)显示出了sunburst chart。我们提出的数据集的整体训练和测试集分别包含 1,011,614 和 1,500 对图像。所有图像的平均分辨率为 2514 × 1516。4. Proposed Method: FoundIR在大型语言模型中的集成学习的激励下[29,46,56]我们将一个 generalist 模型和多个 specialist 模型合并到我们的FoundIR中形成一个集成框架从而在更广泛的现实场景中实现更好的泛化同时在特定场景中实现更高的恢复质量。4.1. Degradation-agnostic generalist model首先采用泛化模型去除输入的多重退化为了减轻由于学习不同退化的特定表示而造成的通用模型负担我们引入了退化不可知的恢复阶段degradation-agnostic restoration stage。具体来说我们利用残差扩散模型通过在马尔可夫链中传递LQ () 和 HQ () 图像之间的残差分量来有效地解耦复杂的退化信息。受[30,61]中残差扩散过程的启发我们对输入退化图像引入了附加约束作为正向过程中的显式条件取代了去噪扩散模型(DDPM)[15]中传统的表示。数学上正向扩散过程可以计算如下其中为时间步长的输出为高斯噪声。和分别表示残差项、条件项和噪声项的系数。值得注意的是当时方程(1) 可以写成。在这里我们假设作为一个可调参数来控制退化不可知学习的大小其中。随着前向扩散过程中噪声(即值)的逐渐增大与退化输入相关的特征(即值)同时减弱。通过这个通过这种不同退化的逐渐形成一个共同的数据分布有利于模型最终学习到一个退化不可知的表示空间。4.2. Incremental learning for model training我们注意到现有的 generalist 恢复方法[24,35,41,61]通常通过简单地组合所有数据或选择来自不同退化类型的小批次进行训练来构建训练批次。然而随着训练数据规模的急剧增加模型容易忘记先前的知识并在早期任务序列上降低性能使模型优化变得更加困难。为了减轻灾难性遗忘的问题我们采用增量学习策略来促进更好的模型收敛。具体而言我们首先建立任务增量池逐步添加来自不同任务的数据流以防止模型早期学习阶段多个任务之间的干扰和竞争[6]。在这里我们将训练数据分为两类isolated 退化学习类和 coupled 退化学习类。对于类我们首先从 isolated 退化类中抽取批次进行 n 次迭代训练得到一个学习各种 isolated 退化知识的模型参数。通过这种方式在 isolated 退化类上训练良好的模型可以为耦合退化类的训练提供坚实的起点[31,32]。对于类我们从这两个类中抽取组合批次进行次迭代训练将模型参数从更新为。算法1给出了训练 generalist 模型的伪算法。4.3. Degradation-aware specialist model最近的研究[647]表明在某些任务上generalist 模型通常比 specialist 模型表现不佳这可以归因于任务干扰。为此我们进一步引入了几个专家模型通过考虑退化感知信息的特点来提炼复杂场景下的部分恢复能力。与 [8] 类似我们根据输入图像中的特定退化模式自动从专家库EI中为每个场景选择最合适的模型以确保高质量的输出。例如我们利用气象专家[9]来提高恶劣天气条件下的修复质量利用照明专家[64]来提高弱光条件下的修复质量。与使用多个专家模型进行顺序恢复[8]不同我们的方法允许专家模型共享他们的专业知识共同提高恢复质量。5. Experiments5.1 Implementation details我们使用ADAM[19]优化器进行次迭代训练。我们将批处理大小设置为80将补丁大小设置为256x256并将设置为0.3。初始学习速率设置为 1×10−4在次迭代后降至。该模型采用相同的扩散逆过程和损失函数[61]。对于测试我们首先将整个图像裁剪成1024×1024块作为输入然后在恢复后将它们拼接回来所有任务都使用4个时间步长。所有实验都是在四台服务器上进行的每台服务器都配备了8个NVIDIA RTX 4090 GPU使用的是PyTorch 2.0。5.2 Comparisons with the state of the art1Evaluation on the proposed dataset2Evaluation on the public benchmarks5.3. Ablation analysis and discussion1Effect of training data scaling、Effect of degradation-agnostic coefficient为了考察我们的数据集规模的效果我们逐渐将训练数据的百分比从10%提高到100%。图6显示随着数据集大小的增加它实现了更高的性能。2Effectiveness of incremental learning、Effectiveness of overall pipelineWhere G and S denote the generalist model and specialist model, respectively.6. Conclusion本文提出了一个包含100万幅LQ-GT图像对的大规模高质量数据集为通用图像恢复的基础模型提供了宝贵的训练资源。此外我们提出了一种稳健的图像恢复模型FoundIR以解决更广泛的真实世界退化场景同时利用增量学习技术来促进大规模数据训练。声明若论文中有理解有误的地方欢迎大家批评指正。

FoundIR: Unleashing Million-scale Training Data to Advance Foundation Models-ICCV2025

相关新闻

AI测试领域2025年度大事件盘点：标准确立、技术跃迁与市场领航

python_django基于微信小程序的班级学生作业管理助手

python_django基于微信小程序的自习室座位预约付费打卡系统

最新新闻

步进电机全闭环控制与EtherCAT总线技术详解

ABB IRB 120机器人三种运动模式详解与应用

openeuler/curl-rust路线图详解：未来规划与Rust生态集成展望

西门子S7-1200 PLC伺服步进控制FB功能块详解

基于KMR221与STM32F469II的高精度电压管理方案

从CVE-2022-26965漏洞剖析文件上传安全与ZIP解压路径穿越防御

日新闻

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

渗透测试入门指南：从零基础到实战环境搭建

周新闻

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

渗透测试入门指南：从零基础到实战环境搭建

月新闻