Why Does RL Generalize Better Than SFT A Data-Centric Perspective on VLM Post-Training
Why Does RL Generalize Better Than SFT? A Data-Centric Perspective on VLM Post-TrainingAuthors:Aojun Lu, Tao Feng, Hangjie Yuan, Wei Li, Yanan SunDeep-Dive Summary:这是一篇关于视觉语言模型VLM后训练阶段泛化能力的学术论文摘要与核心内容总结。| — | — | — || Paradigms | ImageNet | ImageNet-R | ImageNet-A || SFT | 89.34 | 48.56 | 29.59 || GRPO | 83.22 (-6.12) | 56.70 (8.14) | 30.35 (0.76) || SFT-M | 89.30 (-0.04) | 59.72 (11.16) | 31.54 (2.95) || SFT-EM | 84.22 (-5.12) | 60.91 (12.35) | 31.67 (3.08) |在更大数据集上的评估。我们进一步研究了在数据量增加的情况下该方法的扩展性。为此我们构建了一个包含 200 个类别、每个类别 500 个样本的 ImageNet-1K 更大子集共计100 k 100k100k条训练样本。如表 4 所示DC-SFT (SFT-M) 在 OOD 基准测试中始终优于标准 SFT并且在两种模型规模下均达到了与 GRPO 相当或更优的性能。这些结果强化了先前实验的结论证实了 DC-SFT 在训练数据增加时依然有效。表 4. 使用100 k 100k100k训练样本时不同后训练范式的 ID 和 OOD灰色背景性能% \%%。ModelMethodImageNetImageNet-RImageNet-AQwen2.5-VL-3BSFT93.0359.3346.00GRPO91.64 (-1.39)65.79 (6.46)48.33 (2.33)SFT-M90.69 (-2.34)70.09 (10.76)48.92 (2.92)Qwen2.5-VL-7BSFT94.2663.1652.44GRPO93.16 (-1.10)66.19 (3.03)53.86 (1.42)SFT-M92.16 (-2.10)66.94 (3.78)54.20 (1.76)全参数微调评估。虽然之前的实验主要采用基于 LoRA 的高效微调但我们进一步检查了 DC-SFT 在全参数微调下是否保持有效。结果如表 5 所示。与基于 LoRA 的发现一致DC-SFT (SFT-M) 在 OOD 任务上优于标准 SFT并相对于 GRPO 提供了具有竞争力或更优的性能。这表明 DC-SFT 的优势可以推广到全参数适配场景。表 5. 使用全参数训练时不同后训练范式的 ID 和 OOD灰色背景性能% \%%。ModelMethodImageNetImageNet-RImageNet-AQwen2.5-VL-3BSFT95.5234.9927.13GRPO89.74 (-5.78)50.61 (15.62)27.86 (0.73)SFT-M93.60 (-1.92)45.03 (10.04)30.78 (3.65)Qwen2.5-VL-7BSFT96.0428.3826.63GRPO87.14 (-8.90)46.68 (18.30)34.10 (7.47)SFT-M94.58 (-1.46)46.84 (18.46)34.43 (7.80)6. 分析与讨论6.1. 难样本Hard Data对 SFT 泛化能力的影响我们的研究结果表明尽管难样本仅占整个训练集的一小部分但它们对模型的泛化能力有重大影响。为了量化这种效应我们通过在 SFT 过程中逐步增加难样本进行消融实验。图 5 展示了不同比例的难样本如何影响 OOD 性能。我们观察到标准 SFT 仅包含13.5 % 13.5\%13.5%的难样本其 OOD 准确率就比仅使用简单和中等难度样本的 SFT-EM 显著下降。值得注意的是即使仅加入5 % 5\%5%的难样本也会导致性能大幅下降相对于 SFT-EM其在 ImageNet-R 和 ImageNet-A 上的准确率分别降低了3.74 % 3.74\%3.74%和2.51 % 2.51\%2.51%。这证实了难样本的负面影响并非阈值效应而是在低混合比例下就会清晰显现。图 5. 难样本比例对 OOD 性能的影响。为了探究为何少量难样本会严重损害泛化能力我们分析了 SFT 期间不同难度数据子集的梯度动力学。图 6 绘制了 Qwen2.5-VL-7B 在 ImageNet 和 RefCOCO 的简单、中等和困难子集上训练时的每步梯度范数gradient norms。结果显示出一致的分层现象在整个训练过程中难样本产生的梯度范数显著大于简单或中等难度的样本。这表明难样本通过在 SFT 期间诱导更剧烈的参数更新来主导优化轨迹。这可能会导致模型过拟合于噪声或模糊的模式最终损害其在 OOD 基准测试中的稳健性。图 6. SFT 训练过程中在不同难度数据子集上观察到的梯度范数。6.2. 测试时扩展Test-Time Scaling分析最近的研究表明强化学习RL可以通过鼓励模型进行复杂推理来有效提高测试时扩展能力。在本研究中我们探索 DC-SFT 是否也有助于提升测试时扩展性能。训练数据与方法。我们从 MMK12 数据集中获取训练数据并利用大型教师模型GLM-4.5生成高质量推理回答产生 6,800 个经过验证的正确问题-回答对。我们将 DC-SFT 的变体 SFT-M 与标准 SFT、GRPO 以及拒绝采样RS基准进行比较。对于 GRPO我们应用了0.001 0.0010.001的 KL 散度惩罚进行正则化。表 6. 使用不同后训练范式构建的模型的推理性能% \%%。我们仅评估选择题以确保客观性。加粗表示最佳结果。ModelParadigmsMMK12MMMUWeMathMathVerseMathVistaMathVisionAverageQwen2.5-VL-3BSFT42.2047.4554.1449.5468.3329.5048.53SFT-RS41.8047.4552.4148.7265.1929.8347.57GRPO42.1048.5652.8248.6766.4829.9648.10SFT-M43.4050.1154.8951.5168.8931.9250.12Qwen2.5-VL-7BSFT49.2051.6760.2358.3971.6732.1153.88SFT-RS48.6050.3359.2055.8773.5232.2553.20GRPO49.0551.8957.9957.1669.8132.8353.12SFT-M50.7052.5662.3059.3174.0732.9655.32性能结果。如表 6 所示当使用从大型教师模型蒸馏的问题-回答对时SFT 产生的推理性能优于 GRPO。更重要的是SFT-M 在所有推理基准测试中始终获得最高分。对于 Qwen2.5-VL-3BSFT-M 达到了50.12 % 50.12\%50.12%的平均分比标准 SFT 提高了1.59 % 1.59\%1.59%对于 Qwen2.5-VL-7BSFT-M 达到了55.32 % 55.32\%55.32%的最高平均分超过标准 SFT1.44 % 1.44\%1.44%。这些结果证实DC-SFT 的优势不仅限于 OOD 泛化还为增强下游推理能力提供了更高效、更稳定的途径。7. 结论在这项工作中我们为视觉语言模型VLM后训练中 RL 和 SFT 之间的泛化差距提供了一种以数据为中心的解释。我们发现这种差距源于 RL 中隐含的数据过滤机制它自然地将更新集中在中等难度的样本上。相比之下标准 SFT 的泛化能力会被一小部分主导优化的难样本所破坏。基于这一见解我们提出了 DC-SFT这是一种在训练前显式过滤掉难样本的简单且有效的方法。实验表明DC-SFT 的泛化性能超过了强大的 RL 基准线并且具有显著更高的训练稳定性和计算效率。局限性。本工作存在一些局限性首先验证仅限于 Qwen2.5-VL 和 MiniCPM-V-4 模型架构其次实验规模限制在 7B 参数以内的模型第三虽然包含了一些全参数微调结果但大多数实验仍采用 LoRA 微调。Original Abstract:The adaptation of large-scale Vision-Language Models (VLMs) through post-training reveals a pronounced generalization gap: models fine-tuned with Reinforcement Learning (RL) consistently achieve superior out-of-distribution (OOD) performance compared to those trained with Supervised Fine-Tuning (SFT). This paper posits a>博客内容为准

相关新闻

基于springboot和vue框架的民宿房间预订推荐系统的设计与实现

基于springboot和vue框架的民宿房间预订推荐系统的设计与实现

目录系统设计背景技术架构核心功能创新点实现效果项目技术支持可定制开发之功能亮点源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作系统设计背景 随着旅游业的快速发展,民宿行业对信息化管理的需求日益增长。传统预订方式效率低…

2026/7/4 6:56:06 阅读更多 →
基于深度学习YOLOv10的杂草检测系统(12种)(YOLOv10+YOLO数据集+UI界面+Python项目源码+模型)

基于深度学习YOLOv10的杂草检测系统(12种)(YOLOv10+YOLO数据集+UI界面+Python项目源码+模型)

一、项目介绍 摘要 本项目基于YOLOv10目标检测算法开发了一套高效的杂草识别系统,专门用于检测和分类12种常见杂草物种。系统通过深度学习技术实现了对农田杂草的精准识别,为精准农业和智能除草提供了技术支持。项目使用包含3319张标注图像的数据集&am…

2026/5/17 4:23:36 阅读更多 →
数据治理标准化:ISO 38505在大数据环境下的应用

数据治理标准化:ISO 38505在大数据环境下的应用

数据治理标准化:ISO 38505在大数据环境下的应用关键词:数据治理标准化、ISO 38505、大数据环境、数据管理、数据质量摘要:本文聚焦于数据治理标准化,深入探讨了ISO 38505在大数据环境下的应用。首先介绍了数据治理标准化的背景和I…

2026/5/17 4:23:35 阅读更多 →

最新新闻

VisProg与GPT-3的完美结合:揭秘自然语言生成Python视觉程序的黑科技

VisProg与GPT-3的完美结合:揭秘自然语言生成Python视觉程序的黑科技

VisProg与GPT-3的完美结合:揭秘自然语言生成Python视觉程序的黑科技 【免费下载链接】visprog Official code for VisProg (CVPR 2023 Best Paper!) 项目地址: https://gitcode.com/gh_mirrors/vi/visprog 想要让AI理解你的自然语言指令并自动生成Python视觉…

2026/7/4 6:52:54 阅读更多 →
深入理解Laravel Vonage Notification Channel的核心组件:从ServiceProvider到Message类

深入理解Laravel Vonage Notification Channel的核心组件:从ServiceProvider到Message类

深入理解Laravel Vonage Notification Channel的核心组件:从ServiceProvider到Message类 【免费下载链接】vonage-notification-channel Vonage Notification Channel for Laravel. 项目地址: https://gitcode.com/gh_mirrors/vo/vonage-notification-channel …

2026/7/4 6:52:54 阅读更多 →
SQL聚合函数实战:SQL Ultimate Course数据分析基础指南

SQL聚合函数实战:SQL Ultimate Course数据分析基础指南

SQL聚合函数实战:SQL Ultimate Course数据分析基础指南 【免费下载链接】sql-ultimate-course The most comprehensive SQL guide from a real-world expert! Learn everything from basics to advanced queries, optimizations, and real-world SQL 项目地址: h…

2026/7/4 6:46:51 阅读更多 →
switch.vim性能优化:大型代码库中的高效文本切换策略终极指南

switch.vim性能优化:大型代码库中的高效文本切换策略终极指南

switch.vim性能优化:大型代码库中的高效文本切换策略终极指南 【免费下载链接】switch.vim A simple Vim plugin to switch segments of text with predefined replacements 项目地址: https://gitcode.com/gh_mirrors/sw/switch.vim 你是否在大型代码库中频…

2026/7/4 6:46:51 阅读更多 →
如何智能切换DLSS版本:游戏性能优化的终极指南

如何智能切换DLSS版本:游戏性能优化的终极指南

如何智能切换DLSS版本:游戏性能优化的终极指南 【免费下载链接】dlss-swapper 项目地址: https://gitcode.com/GitHub_Trending/dl/dlss-swapper 还在为游戏卡顿而烦恼吗?想要提升游戏帧率却不知从何下手?DLSS Swapper正是你需要的游…

2026/7/4 6:44:51 阅读更多 →
CANN/asc-devkit LoadData矩阵搬运

CANN/asc-devkit LoadData矩阵搬运

# LoadData(2D矩阵搬运) 【免费下载链接】asc-devkit 本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景…

2026/7/4 6:44:51 阅读更多 →

日新闻

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 正式发布,这是一个关键的安全修复版本,修复了多个方面的问题,还对部分功能进行了优化。 安全修复亮点 此次发布在安全修复上表现突出。binprot 避免了项目引用计数溢出,mcmc 因安全问题提升了上游版本号&#xf…

2026/7/4 0:04:29 阅读更多 →
终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案 【免费下载链接】HMCL A Minecraft Launcher which is multi-functional, cross-platform and popular 项目地址: https://gitcode.com/gh_mirrors/hm/HMCL HMCL(Hello Minecraft! Lau…

2026/7/4 0:06:29 阅读更多 →
KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

1. KMX63与PIC18F66K40的硬件协同架构解析KMX63作为一款三轴加速度计和磁力计组合传感器,与PIC18F66K40微控制器的搭配堪称嵌入式HMI开发的黄金组合。这套硬件组合的核心优势在于KMX63提供的高精度运动感知能力与PIC18F66K40强大的信号处理能力形成了完美互补。KMX6…

2026/7/4 0:06:29 阅读更多 →

周新闻

月新闻