Why Does RL Generalize Better Than SFT A Data-Centric Perspective on VLM Post-Training-尧图手机网站定制

Why Does RL Generalize Better Than SFT? A Data-Centric Perspective on VLM Post-TrainingAuthors:Aojun Lu, Tao Feng, Hangjie Yuan, Wei Li, Yanan SunDeep-Dive Summary:这是一篇关于视觉语言模型VLM后训练阶段泛化能力的学术论文摘要与核心内容总结。| — | — | — || Paradigms | ImageNet | ImageNet-R | ImageNet-A || SFT | 89.34 | 48.56 | 29.59 || GRPO | 83.22 (-6.12) | 56.70 (8.14) | 30.35 (0.76) || SFT-M | 89.30 (-0.04) | 59.72 (11.16) | 31.54 (2.95) || SFT-EM | 84.22 (-5.12) | 60.91 (12.35) | 31.67 (3.08) |在更大数据集上的评估。我们进一步研究了在数据量增加的情况下该方法的扩展性。为此我们构建了一个包含 200 个类别、每个类别 500 个样本的 ImageNet-1K 更大子集共计100 k 100k100k条训练样本。如表 4 所示DC-SFT (SFT-M) 在 OOD 基准测试中始终优于标准 SFT并且在两种模型规模下均达到了与 GRPO 相当或更优的性能。这些结果强化了先前实验的结论证实了 DC-SFT 在训练数据增加时依然有效。表 4. 使用100 k 100k100k训练样本时不同后训练范式的 ID 和 OOD灰色背景性能% \%%。ModelMethodImageNetImageNet-RImageNet-AQwen2.5-VL-3BSFT93.0359.3346.00GRPO91.64 (-1.39)65.79 (6.46)48.33 (2.33)SFT-M90.69 (-2.34)70.09 (10.76)48.92 (2.92)Qwen2.5-VL-7BSFT94.2663.1652.44GRPO93.16 (-1.10)66.19 (3.03)53.86 (1.42)SFT-M92.16 (-2.10)66.94 (3.78)54.20 (1.76)全参数微调评估。虽然之前的实验主要采用基于 LoRA 的高效微调但我们进一步检查了 DC-SFT 在全参数微调下是否保持有效。结果如表 5 所示。与基于 LoRA 的发现一致DC-SFT (SFT-M) 在 OOD 任务上优于标准 SFT并相对于 GRPO 提供了具有竞争力或更优的性能。这表明 DC-SFT 的优势可以推广到全参数适配场景。表 5. 使用全参数训练时不同后训练范式的 ID 和 OOD灰色背景性能% \%%。ModelMethodImageNetImageNet-RImageNet-AQwen2.5-VL-3BSFT95.5234.9927.13GRPO89.74 (-5.78)50.61 (15.62)27.86 (0.73)SFT-M93.60 (-1.92)45.03 (10.04)30.78 (3.65)Qwen2.5-VL-7BSFT96.0428.3826.63GRPO87.14 (-8.90)46.68 (18.30)34.10 (7.47)SFT-M94.58 (-1.46)46.84 (18.46)34.43 (7.80)6. 分析与讨论6.1. 难样本Hard Data对 SFT 泛化能力的影响我们的研究结果表明尽管难样本仅占整个训练集的一小部分但它们对模型的泛化能力有重大影响。为了量化这种效应我们通过在 SFT 过程中逐步增加难样本进行消融实验。图 5 展示了不同比例的难样本如何影响 OOD 性能。我们观察到标准 SFT 仅包含13.5 % 13.5\%13.5%的难样本其 OOD 准确率就比仅使用简单和中等难度样本的 SFT-EM 显著下降。值得注意的是即使仅加入5 % 5\%5%的难样本也会导致性能大幅下降相对于 SFT-EM其在 ImageNet-R 和 ImageNet-A 上的准确率分别降低了3.74 % 3.74\%3.74%和2.51 % 2.51\%2.51%。这证实了难样本的负面影响并非阈值效应而是在低混合比例下就会清晰显现。图 5. 难样本比例对 OOD 性能的影响。为了探究为何少量难样本会严重损害泛化能力我们分析了 SFT 期间不同难度数据子集的梯度动力学。图 6 绘制了 Qwen2.5-VL-7B 在 ImageNet 和 RefCOCO 的简单、中等和困难子集上训练时的每步梯度范数gradient norms。结果显示出一致的分层现象在整个训练过程中难样本产生的梯度范数显著大于简单或中等难度的样本。这表明难样本通过在 SFT 期间诱导更剧烈的参数更新来主导优化轨迹。这可能会导致模型过拟合于噪声或模糊的模式最终损害其在 OOD 基准测试中的稳健性。图 6. SFT 训练过程中在不同难度数据子集上观察到的梯度范数。6.2. 测试时扩展Test-Time Scaling分析最近的研究表明强化学习RL可以通过鼓励模型进行复杂推理来有效提高测试时扩展能力。在本研究中我们探索 DC-SFT 是否也有助于提升测试时扩展性能。训练数据与方法。我们从 MMK12 数据集中获取训练数据并利用大型教师模型GLM-4.5生成高质量推理回答产生 6,800 个经过验证的正确问题-回答对。我们将 DC-SFT 的变体 SFT-M 与标准 SFT、GRPO 以及拒绝采样RS基准进行比较。对于 GRPO我们应用了0.001 0.0010.001的 KL 散度惩罚进行正则化。表 6. 使用不同后训练范式构建的模型的推理性能% \%%。我们仅评估选择题以确保客观性。加粗表示最佳结果。ModelParadigmsMMK12MMMUWeMathMathVerseMathVistaMathVisionAverageQwen2.5-VL-3BSFT42.2047.4554.1449.5468.3329.5048.53SFT-RS41.8047.4552.4148.7265.1929.8347.57GRPO42.1048.5652.8248.6766.4829.9648.10SFT-M43.4050.1154.8951.5168.8931.9250.12Qwen2.5-VL-7BSFT49.2051.6760.2358.3971.6732.1153.88SFT-RS48.6050.3359.2055.8773.5232.2553.20GRPO49.0551.8957.9957.1669.8132.8353.12SFT-M50.7052.5662.3059.3174.0732.9655.32性能结果。如表 6 所示当使用从大型教师模型蒸馏的问题-回答对时SFT 产生的推理性能优于 GRPO。更重要的是SFT-M 在所有推理基准测试中始终获得最高分。对于 Qwen2.5-VL-3BSFT-M 达到了50.12 % 50.12\%50.12%的平均分比标准 SFT 提高了1.59 % 1.59\%1.59%对于 Qwen2.5-VL-7BSFT-M 达到了55.32 % 55.32\%55.32%的最高平均分超过标准 SFT1.44 % 1.44\%1.44%。这些结果证实DC-SFT 的优势不仅限于 OOD 泛化还为增强下游推理能力提供了更高效、更稳定的途径。7. 结论在这项工作中我们为视觉语言模型VLM后训练中 RL 和 SFT 之间的泛化差距提供了一种以数据为中心的解释。我们发现这种差距源于 RL 中隐含的数据过滤机制它自然地将更新集中在中等难度的样本上。相比之下标准 SFT 的泛化能力会被一小部分主导优化的难样本所破坏。基于这一见解我们提出了 DC-SFT这是一种在训练前显式过滤掉难样本的简单且有效的方法。实验表明DC-SFT 的泛化性能超过了强大的 RL 基准线并且具有显著更高的训练稳定性和计算效率。局限性。本工作存在一些局限性首先验证仅限于 Qwen2.5-VL 和 MiniCPM-V-4 模型架构其次实验规模限制在 7B 参数以内的模型第三虽然包含了一些全参数微调结果但大多数实验仍采用 LoRA 微调。Original Abstract:The adaptation of large-scale Vision-Language Models (VLMs) through post-training reveals a pronounced generalization gap: models fine-tuned with Reinforcement Learning (RL) consistently achieve superior out-of-distribution (OOD) performance compared to those trained with Supervised Fine-Tuning (SFT). This paper posits a>博客内容为准

Why Does RL Generalize Better Than SFT A Data-Centric Perspective on VLM Post-Training

相关新闻

基于springboot和vue框架的民宿房间预订推荐系统的设计与实现

基于深度学习YOLOv10的杂草检测系统（12种）（YOLOv10+YOLO数据集+UI界面+Python项目源码+模型）

数据治理标准化：ISO 38505在大数据环境下的应用

最新新闻

VisProg与GPT-3的完美结合：揭秘自然语言生成Python视觉程序的黑科技

深入理解Laravel Vonage Notification Channel的核心组件：从ServiceProvider到Message类

SQL聚合函数实战：SQL Ultimate Course数据分析基础指南

switch.vim性能优化：大型代码库中的高效文本切换策略终极指南

如何智能切换DLSS版本：游戏性能优化的终极指南

CANN/asc-devkit LoadData矩阵搬运

日新闻

Memcached 1.6.43 发布：关键安全修复版本，多项问题得到解决

终极指南：使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

周新闻

月新闻