AAAI 2026 Oral | 主动注入标签噪声,为何成为模型泛化的“密钥”?两层线性网络的动力学分析
点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入在AI模型训练的传统认知里标签噪声向来是避之不及的“麻烦事”——纯净的数据、精准的标签才被视作提升模型性能的关键。然而近年来有不少研究都关注到一个反直觉的现象在训练过程中给数据标签加噪声不仅不会拖垮模型反而能显著提升泛化能力。本项研究旨在探究这一反常现象背后的理论机理。为了在理论可解性和结构典型性取得平衡在本研究中作者聚焦于两层线性网络采用Label Noise SGD算法来进行迭代用严谨的理论与实验揭开了标签噪声背后的学习动力学奥秘。作者张桐铖 上海交通大学本科生周展鹏 上海交通大学博士研究生论文链接https://openreview.net/pdf?idKfsMlrl81a代码仓库https://github.com/a-usually/Label-Noise-SGD1核心方法Label Noise SGD的“反常识”魔力什么是Label Noise SGD优化算法Label Noise SGD方法并不复杂它融合了两项关键技术一项是大家熟知的随机梯度下降法SGD通过随机抽取数据子集计算梯度来优化模型另一项则是主动给训练标签“加噪声”——也就是在每一步以一定概率标签翻转概率τ将部分标签的类别随机替换为其他类别。此前已有研究团队发现这种方法可能提升泛化能力为了验证这一猜想研究选用ResNet-18模型在CIFAR-10数据集上展开实验设置了0.05、0.1、0.2三种不同强度的标签噪声结果令人惊喜在所有噪声强度下模型在测试集上的Loss持续降低测试集上的准确率平均提升了1.5%。这种“以噪提纯”的反常识现象让研究团队决心深挖其背后的理论逻辑最终构建出一套两阶段的理论证明体系第一阶段模型权重范数逐步衰减网络逐渐脱离“惰性训练”状态进入“丰富训练”状态第二阶段模型权重与优化目标向量的对齐度持续提升最终实现模型收敛。2理论揭秘两层网络的“双阶段进化”之路研究以两层线性网络为载体采用NTK初始化策略在过参数化网络、小学习率、适当输入量级的设定下完整呈现了模型从“惰性学习”到“丰富学习”的进化路径。第一阶段震荡驱动跳出“惰性”舒适区“惰性学习状态Lazy Regime”是许多模型训练中难以突破的瓶颈——简单来说就是网络权重在训练过程中变化甚微始终停留在初始状态附近难以挖掘数据中的深层规律。此前研究证实标准梯度下降法会让网络一直困在这个“舒适区”里。而Label Noise SGD的神奇之处就在于能打破这种僵局。研究发现了一个关键机制标签噪声会引发第二层神经元的持续震荡这个震荡的现象会驱使第一层神经元的权重逐步衰减进而脱离惰性训练状态。由于第二层权重初始值较小第一层权重的更新主要受这种震荡主导且更新量大概率呈现负值导致第一层权重范数逐步衰减。经过约1/η²数量级的迭代后所有神经元都会以高概率跳出惰性学习状态进入更具探索性的“丰富学习状态Rich Regime”。为了验证这一机制研究团队还设计了一组对照实验以5000步为周期交替添加和移除标签噪声。结果显示噪声添加时低层神经元范数持续衰减噪声移除时衰减立即停止。与此同时第二层神经元始终在零值附近震荡。这一对照实验清晰表明标签噪声正是驱动网络从“lazy”向“rich”蜕变的核心动力。第二阶段对齐收敛炼就“稀疏优质解”当所有神经元的权重范数减小到一定程度模型就进入了第二阶段此时的状态类似于“小初始化”模型具备了快速收敛的基础。在这一阶段神经元权重会快速向优化目标的方向对齐。完成对齐后模型会稳步收敛最终形成一个稀疏解。具体而言那些权重范数始终保持极小的神经元相当于“退出”了训练过程不再发挥作用而真正有用的神经元则专注于捕捉数据本质规律。这种稀疏特性正是模型泛化能力大幅提升的关键原因。合成实验的图表清晰地展现了这一过程部分神经元的范数先降后升逐步成为“核心力量”另一部分则持续维持低值最终被自然筛选淘汰。3拓展验证跨优化器的“普适性”既然Label Noise SGD的机制如此有效它能否推广到其他优化器上研究团队将目光投向了Sharpness-Aware MinimizationSAM锐度感知最小化优化器——这种优化器的核心目标是寻找更平坦的极小值点让模型更稳健。实验结果给出了肯定答案在不同设定下SAM展现出了与Label Noise SGD高度相似的双阶段变化特征。即使是在真实场景中用宽残差网络在CIFAR-10数据集子集上训练时添加标签噪声后模型的训练轨迹也与未加噪声时接近线性模型的轨迹截然不同呈现出丰富学习状态的典型特征进一步印证了这一机制的普适性。4未来方向还有哪些待解的“优化谜题”未来研究团队计划将理论框架进一步拓展一方面引入非线性激活函数探究非线性网络中这种动力学机制是否依然成立另一方面将研究场景从回归任务延伸到更广泛的分类任务中而这也是当前领域内仍为解决的开放问题。从“避之不及”到“主动利用”标签噪声的角色转变背后是对深度学习动力学本质的深度洞察。这项研究不仅为噪声鲁棒性学习奠定了理论基础更为实际场景中提升模型泛化能力提供了新颖而简洁的思路。本期文章由支昕整理往期精彩文章推荐关于AI TIMEAI TIME源起于2019年旨在发扬科学思辨精神邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索加强思想碰撞链接全球AI学者、行业专家和爱好者希望以辩论的形式探讨人工智能和人类未来之间的矛盾探索人工智能领域的未来。迄今为止AI TIME已经邀请了2000多位海内外讲者举办了逾800场活动超1000万人次观看。我知道你在看提出观点表达想法欢迎留言点击阅读原文观看作者直播回放

相关新闻

一篇 1948 年的论文,为什么至今仍在塑造我们的通信世界?

一篇 1948 年的论文,为什么至今仍在塑造我们的通信世界?

1948 年,克劳德E香农发表了一篇题为《通信的数学理论》的论文。彼时,它只是一篇看起来相当克制的技术论文,没有宏大的宣言,也没有铺陈未来图景。但正是这篇文章,在随后半个多世纪里,悄然塑造了我们今天所熟…

2026/7/3 3:36:14 阅读更多 →
2026年02月03日全球AI前沿动态

2026年02月03日全球AI前沿动态

一句话总结 2026年2月3日前后,AI领域呈现全产业链爆发式进展:通用与垂直模型密集迭代(轻量化、高性能成主流),多智能体协作与物理AI技术突破,企业并购、融资活跃,应用场景覆盖办公、社交、工业…

2026/7/3 15:01:50 阅读更多 →
C语言字符串与内存操作函数模拟实现详解

C语言字符串与内存操作函数模拟实现详解

一、strstr函数模拟实现 1.1 函数功能 strstr用于在字符串 str1中查找子串 str2的首次出现位置: const char* strstr(const char* str1, const char* str2); char* strstr(char* str1, const char* str2); 找到则返回第一次出现的起始地址 找不到则返回NULL 1…

2026/7/3 15:01:51 阅读更多 →

最新新闻

半导体百科 | 扩散与退火工艺详解:热预算控制与RTP实战

半导体百科 | 扩散与退火工艺详解:热预算控制与RTP实战

一、问题背景 做工艺整合的都知道,离子注入只是前戏,真正的重头戏在后面——退火。有一次我做0.13μm逻辑工艺的源漏注入后热工艺窗口评估,愣是被热预算计算搞崩溃了三天。因为炉管退火和RTP快速热退火的温度曲线完全不同,同样的…

2026/7/3 18:40:42 阅读更多 →
银发科技与多元渠道的“价值共振”:银发智能科技产品与线上线下渠道对接会圆满落幕

银发科技与多元渠道的“价值共振”:银发智能科技产品与线上线下渠道对接会圆满落幕

​2026年6月30日下午,由AgeClub(上海银创同行科技有限公司)主办、上海市养老科技产业园协办的“数智银发,生态共赢——银发智能科技产品与线上线下渠道对接会”在产业园403报告厅圆满举行。活动汇聚了如身机器人、程天科技、小维健…

2026/7/3 18:36:40 阅读更多 →
IntelliJ UI自动化测试框架:Remote Robot原理、配置与最佳实践

IntelliJ UI自动化测试框架:Remote Robot原理、配置与最佳实践

1. 项目概述:IntelliJ UI 测试机器人如果你正在为你的 IntelliJ IDEA 插件编写功能测试,或者想自动化一些繁琐的 IDE 操作流程,那么手动点击、肉眼观察的方式很快就会让你感到力不从心。尤其是在插件功能复杂、涉及多个对话框和菜单交互时&am…

2026/7/3 18:32:39 阅读更多 →
临沂不锈钢铝蜂窝吊顶选材技术参数与性能评测要点

临沂不锈钢铝蜂窝吊顶选材技术参数与性能评测要点

在建筑装饰材料市场,临沂不锈钢铝蜂窝吊顶产品正逐步替代传统石膏板与铝扣板吊顶,成为公共空间与高端住宅装修的热门选项。这种材料本质是一种“三明治结构”,核心在于将不锈钢面板与高强度铝蜂窝芯通过专用复合工艺紧密压合。选材与评测&…

2026/7/3 18:32:39 阅读更多 →
【hive学习笔记2】

【hive学习笔记2】

笔记关联-hive学习笔记 测试Demo 1.首先在windows上(本地)创建几个文件(放一列数据),如:2.在hive建表3.上传数据上传成功显示4.测试查询hive系统架构上图所示是hive的主要组件及其与Hadoop的交互方式&#…

2026/7/3 18:30:39 阅读更多 →
act仿真,任务层

act仿真,任务层

整体分层 任务与环境层:sim_env.py(关节空间控制)、ee_sim_env.py(末端位姿控制)、scripted_policy.py(脚本策略)、assets(MuJoCo XML 场景)。数据层:record…

2026/7/3 18:30:39 阅读更多 →

日新闻

Nginx防御TLS重协商攻击实战:从原理到配置与监控

Nginx防御TLS重协商攻击实战:从原理到配置与监控

1. 项目概述:为什么TLS重协商攻击至今仍需警惕十多年前的CVE-2011-1473,一个关于TLS/SSL协议重协商机制的漏洞,现在提起来还有必要吗?很多运维和开发朋友可能会觉得,这都老掉牙了,现代服务器和客户端不都默…

2026/7/3 0:03:59 阅读更多 →
华为防火墙双通道远程管理实战:Web与SSH配置详解

华为防火墙双通道远程管理实战:Web与SSH配置详解

1. 项目概述:为什么需要双通道远程管理防火墙?在任何一个稍具规模的企业网络里,防火墙都是那个默默守护在边界的关键角色。作为网络工程师,我们不可能每次都跑到机房,插上console线去配置它。远程管理能力,…

2026/7/3 0:03:59 阅读更多 →
AD74413R与PIC18F65K40的高精度工业数据采集方案

AD74413R与PIC18F65K40的高精度工业数据采集方案

1. 项目概述:AD74413R与PIC18F65K40的协同工作在工业自动化和精密测量领域,同时实现高精度模数转换(ADC)和数模转换(DAC)功能是许多复杂系统的核心需求。AD74413R作为一款四通道可配置模拟输入/输出器件,与PIC18F65K40微控制器的组合&#xf…

2026/7/3 0:05:59 阅读更多 →

周新闻

月新闻