LoRA 为什么必须把一个矩阵初始化为0
LoRALow-Rank Adaptation中必须把其中一个矩阵通常是 B初始化为 0的核心原因是为了让微调在第0步刚加载预训练权重时不改变原模型的任何输出也就是实现“从预训练模型精确起步”。这不是可有可无的trick而是LoRA设计中最关键的工程细节之一。为什么一定要 ΔW 0 在初始化时刻LoRA 的更新形式是h W₀ x ΔW x W₀ x (B A) x通常再乘一个缩放因子 α/r在训练刚开始的那一刻如果 ΔW ≠ 0就会立刻给原模型引入一个随机偏移这会导致输出突然跳变 → 损失剧烈震荡早期梯度不稳定容易跑偏或梯度爆炸/消失破坏了预训练模型已经非常好的初始化这是最昂贵的部分而把 B 初始化为全零矩阵无论 A 是什么高斯随机、Kaiming、Xavier 随便都有B A 0矩阵乘法性质任何矩阵乘以零矩阵都得零矩阵于是 ΔW 0 → h W₀ x完美保持原模型行为。为什么不把 A 和 B 都初始化为 0初始化方式ΔW 初始化时是否为 0梯度是否为 0早期训练稳定性实际效果主流实践A0, B0是是对称性问题极差基本学不动梯度对称坍缩A随机, B随机否随机大偏移正常差早期震荡大难收敛A随机, B0主流是正常很好最稳定推荐A0, B随机是正常较好比主流稍差一些全零→ 所有神经元对称梯度相同 → 学不动经典的 zero init 灾难都随机→ 相当于突然给预训练权重加了一个随机低秩扰动 → 相当于从一个很差的起点开始微调浪费了预训练的优势所以主流包括原论文、PEFT库、绝大多数开源实现都选A 随机小方差初始化 B 0。2024–2025 年的新研究其实不“必须”了最近一些工作尤其是 infinite-width 理论分析 大量实验发现如果把 A 和 B都用很小的非零值初始化比如缩小标准差训练其实也能正常进行甚至在某些情况下特别小 learning rate 时更鲁棒微调不一定非要从精确的预训练模型开始加一点小的随机噪声通常不影响最终性能代表工作“Investigating the Impact of Non-Zero Initialization on LoRA Fine-Tuning Dynamics” (ICML 2025)结论非零初始化可以提升对次优学习率的鲁棒性且最终精度往往不差甚至略好但目前工程界仍然强烈推荐 B 初始化为 0原因主要是最稳early training 几乎不会炸最可复现和绝大多数已有 checkpoint / 教程 / huggingface peft 代码一致总结一句话LoRA 把 B 初始化为 0 的根本目的是让低秩适配器在训练第0步“什么都不做”从而最大限度地继承预训练模型的优秀初始化和稳定性。这是工程上“稳”压倒一切的典型案例。如果你现在做实验想最稳 → 继续用 B0想探索极限 / 小学习率场景 → 可以试试双随机小方差初始化注意要配合更小的初始学习率你是在 debug LoRA 训练不稳定还是在准备面试/写论文想深入理解这个细节可以告诉我具体场景我再给你更针对性的建议

相关新闻

视频孪生时代的终结镜像视界空间神经中枢与前向空间控制引擎

视频孪生时代的终结镜像视界空间神经中枢与前向空间控制引擎

视频孪生时代的终结镜像视界空间神经中枢与前向空间控制引擎---基于统一空间坐标体系的Pixel-to-Space 三维坐标反演 Camera Graph 空间拓扑图构建 轨迹张量化连续表达建模 实时图搜索预测推演算法实现跨域空间接力式追踪与趋势级主动风险前置控制第一章 时代边界:视…

2026/5/17 6:40:07 阅读更多 →
MATLAB通过网格搜索和交叉验证优化 SVR 的两个关键参数惩罚因子和核函数参数,以提高模型的预测精度

MATLAB通过网格搜索和交叉验证优化 SVR 的两个关键参数惩罚因子和核函数参数,以提高模型的预测精度

一、研究背景 支持向量机(SVM)是一种经典的机器学习方法,最初用于分类问题,后来被推广到回归问题,称为支持向量回归(SVR)。SVR具有较强的泛化能力和对小样本数据的适应性,广泛应用于工程预测、金融分析、环境科学等领域。 本代码通过网格搜索和交叉验证优化 SVR 的两…

2026/5/17 6:40:07 阅读更多 →
再论y的导函数dy/dx是两个变量的商

再论y的导函数dy/dx是两个变量的商

再论y的导函数dy/dx是两个变量的商 黄小宁 请看图片yf(x)的导函数dy/dx是两个以0为极限的变量的商,从而使y的导函数是分式dy/dx。图片中分式的分子是2xdxdy,分母是dx。这个分式是dx趋于0时分式Δy/dx的极限即是y关于x的导数dy/dx。 有“老师”…

2026/7/4 17:26:15 阅读更多 →

最新新闻

合同管理系统的实施-开发费用问题

合同管理系统的实施-开发费用问题

此前《从纸质台账到数智中台:合同管理系统的演进与未来》一文,梳理了合同管理系统的发展脉络。从功能迭代角度来看,合同管理系统是依托 OA 无纸化办公、企业信息化的基础需求,逐步拆分独立出来的专业化管理软件。在专业化演变进程…

2026/7/4 20:39:43 阅读更多 →
如何免费获取国家中小学智慧教育平台电子课本PDF:智能解析下载方案

如何免费获取国家中小学智慧教育平台电子课本PDF:智能解析下载方案

如何免费获取国家中小学智慧教育平台电子课本PDF:智能解析下载方案 【免费下载链接】tchMaterial-parser 国家中小学智慧教育平台 电子课本下载工具,帮助您从智慧教育平台中获取电子课本的 PDF 文件网址并进行下载,让您更方便地获取课本内容。…

2026/7/4 20:37:42 阅读更多 →
AutoRaise终极指南:3步实现macOS鼠标悬停窗口自动聚焦,提升5倍工作效率

AutoRaise终极指南:3步实现macOS鼠标悬停窗口自动聚焦,提升5倍工作效率

AutoRaise终极指南:3步实现macOS鼠标悬停窗口自动聚焦,提升5倍工作效率 【免费下载链接】AutoRaise AutoRaise (and focus) a window when hovering over it with the mouse 项目地址: https://gitcode.com/gh_mirrors/au/AutoRaise 在macOS多任务…

2026/7/4 20:35:42 阅读更多 →
【强烈推荐收藏】2026网络安全:国家战略支柱与最确定职业红利

【强烈推荐收藏】2026网络安全:国家战略支柱与最确定职业红利

【强烈推荐收藏】2026网络安全:国家战略支柱与最确定职业红利 文章指出2026年网络安全已成为国家战略核心,新《网络安全法》实施加大处罚力度,产业市场规模扩大与人才缺口并存。两会明确网络安全是数字时代的刚需与国家战略支柱,…

2026/7/4 20:31:41 阅读更多 →
基于YOLOv5的道路损坏实时检测系统开发实践

基于YOLOv5的道路损坏实时检测系统开发实践

1. 项目概述:基于YOLOv5的道路损坏识别系统道路损坏检测一直是交通基础设施维护中的痛点问题。传统人工巡检方式效率低下且成本高昂,而基于计算机视觉的自动化检测方案正在逐步改变这一现状。我们开发的这套系统采用YOLOv5目标检测框架,能够实…

2026/7/4 20:29:41 阅读更多 →
Codex 实战 Skills:发生 Bug 时,用 Skill 自动捕获堆栈并格式化推送到群聊的预警技能

Codex 实战 Skills:发生 Bug 时,用 Skill 自动捕获堆栈并格式化推送到群聊的预警技能

Codex 实战 Skills:发生 Bug 时,用 Skill 自动捕获堆栈并格式化推送到群聊的预警技能 在现代软件工程的敏捷开发与运维体系中,故障的发现速度直接决定了系统的恢复时间(MTTR)。当生产环境发生异常时,传统的日志查看方式往往存在滞后性,而基于即时通讯工具(如飞书、钉钉…

2026/7/4 20:27:41 阅读更多 →

日新闻

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 正式发布,这是一个关键的安全修复版本,修复了多个方面的问题,还对部分功能进行了优化。 安全修复亮点 此次发布在安全修复上表现突出。binprot 避免了项目引用计数溢出,mcmc 因安全问题提升了上游版本号&#xf…

2026/7/4 0:04:29 阅读更多 →
终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案 【免费下载链接】HMCL A Minecraft Launcher which is multi-functional, cross-platform and popular 项目地址: https://gitcode.com/gh_mirrors/hm/HMCL HMCL(Hello Minecraft! Lau…

2026/7/4 0:06:29 阅读更多 →
KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

1. KMX63与PIC18F66K40的硬件协同架构解析KMX63作为一款三轴加速度计和磁力计组合传感器,与PIC18F66K40微控制器的搭配堪称嵌入式HMI开发的黄金组合。这套硬件组合的核心优势在于KMX63提供的高精度运动感知能力与PIC18F66K40强大的信号处理能力形成了完美互补。KMX6…

2026/7/4 0:06:29 阅读更多 →

周新闻

月新闻