大模型面经——LoRA大模型微调秘籍:小白也能轻松掌握,收藏必备!
LoRA是一种基于低秩分解的高效微调方法通过冻结预训练模型的部分参数仅训练少量新增矩阵A和B从而实现快速、节省资源的模型适配。文章详细介绍了LoRA的概念、思路、优缺点及训练理论涵盖参数合并、内存优化、过拟合避免等关键问题适合想要学习大模型微调的程序员和初学者参考。LoRA面经搜集总结。大家的显卡都比较吃紧LoRA家族越来越壮大基于LoRA出现了各种各样的改进最近比较火的一个改进版是dora听大家反馈口碑也不错。基于PEFT的话用4090 24G显存也可以进行大模型的微调所以LoRA家族这块还是很有研究和实际落地的潜力。LoRA整个系列分为两个部分1、LoRA总述2、LoRA家族演进本篇开始介绍第一部分LoRA总述尽量以面经问题的形式提出并解答下面是一个快捷目录。一、概念简单介绍一下LoRALoRA的思路LoRA的特点LoRA的优点LoRA的缺点二、训练理论LoRA权重是否可以合入原模型ChatGLM-6B LoRA后的权重多大LoRA微调方法为啥能加速训练如何在已有LoRA模型上继续训练LoRA这种微调方法和全参数比起来有什么劣势吗LORA应该作用于Transformer的哪个参数矩阵LoRA 微调参数量怎么确定Rank 如何选取alpha参数 如何选取LoRA 高效微调如何避免过拟合哪些因素会影响内存使用LoRA权重是否可以合并是否可以逐层调整LoRA的最优rankLora的矩阵怎么初始化为什么要初始化为全0一、概念1. 简单介绍一下LoRA通过低秩分解来模拟参数的改变量从而以极小的参数量来实现大模型的间接训练。实现思想很简单就是冻结一个预训练模型的矩阵参数并选择用A和B矩阵来替代在下游任务时只更新A和B。2. LoRA的思路主要思想在原模型旁边增加一个旁路通过低秩分解先降维再升维来模拟参数的更新量。训练原模型固定只训练降维矩阵A和升维矩阵B。推理可将BA加到原参数上不引入额外的推理延迟。初始化A采用高斯分布初始化B初始化为全0保证训练开始时旁路为0矩阵。可插拔式的切换任务当前任务W0B1A1将lora部分减掉换成B2A2即可实现任务切换。3. LoRA的特点将BA加到W上可以消除推理延迟可以通过可插拔的形式切换到不同的任务设计的比较简单且效果好。4. LoRA的优点1一个中心模型服务多个下游任务节省参数存储量2推理阶段不引入额外计算量3与其它参数高效微调方法正交可有效组合4训练任务比较稳定效果比较好5LoRA 几乎不添加任何推理延迟因为适配器权重可以与基本模型合并5. LoRA的缺点LoRA参与训练的模型参数量不多也就百万到千万级别的参数量所以效果比全量微调差很多。(数据以及算力满足的情况下还是微调的参数越多越好二、训练理论1. LoRA权重是否可以合入原模型可以将训练好的低秩矩阵B*A原模型权重合并相加计算出新的权重。2. ChatGLM-6B LoRA后的权重多大rank 8 target_module query_key_value条件下大约15M。3. LoRA微调方法为啥能加速训练1只更新了部分参数比如LoRA原论文就选择只更新Self Attention的参数实际使用时我们还可以选择只更新部分层的参数2减少了通信时间由于更新的参数量变少了所以尤其是多卡训练时要传输的数据量也变少了从而减少了传输时间3采用了各种低精度加速技术如FP16、FP8或者INT8量化等。这三部分原因确实能加快训练速度然而它们并不是LoRA所独有的事实上几乎都有参数高效方法都具有这些特点。LoRA的优点是它的低秩分解很直观在不少场景下跟全量微调的效果一致以及在预测阶段不增加推理成本。4. 如何在已有LoRA模型上继续训练理解此问题的情形是已有的lora模型只训练了一部分数据要训练另一部分数据的话是在这个lora上继续训练呢还是跟base 模型合并后再套一层lora或者从头开始训练一个lora把之前的LoRA跟base model 合并后继续训练就可以为了保留之前的知识和能力训练新的LoRA时加入一些之前的训练数据是需要的。每次都要重头训练的话成本比较高。5. LoRA这种微调方法和全参数比起来有什么劣势吗如果有足够计算资源以及有10k以上数据还是建议全参数微调lora的一个初衷就是为了解决不够计算资源的情况下微调只引入了少量参数就可以在消费级gpu上训练但lora的问题在于它不能节省训练时间相比于全量微调他要训练更久同时因为可训练参数量很小在同样大量数据训练下比不过全量微调。6. LORA应该作用于Transformer的哪个参数矩阵从上图我们可以看到1将所有微调参数都放到attention的某一个参数矩阵的效果并不好将可微调参数平均分配到 Wq 和 Wk 的效果最好2即使是秩仅取4也能在 ∆W 中获得足够的信息。因此在实际操作中应当将可微调参数分配到多种类型权重矩阵中而不应该用更大的秩单独微调某种类型的权重矩阵。7. LoRA 微调参数量怎么确定LoRA 模型中可训练参数的结果数量取决于低秩更新矩阵的大小其主要由秩 r 和原始权重矩阵的形状确定。实际使用过程中通过选择不同的 lora_target 决定训练的参数量。以 LLama 为例–lora_target q_proj,k_proj,v_proj,o_proj,gate_proj,up_proj,down_proj8. Rank 如何选取Rank的取值比较常见的是8理论上说Rank在4-8之间效果最好再高并没有效果提升。不过论文的实验是面向下游单一监督任务的因此在指令微调上根据指令分布的广度Rank选择还是需要在8以上的取值进行测试。9. alpha参数 如何选取alpha其实是个缩放参数本质和learning rate相同所以为了简化可以默认让alpharank只调整lr这样可以简化超参。10. LoRA 高效微调如何避免过拟合过拟合还是比较容易出现的。减小r或增加数据集大小可以帮助减少过拟合还可以尝试增加优化器的权重衰减率或LoRA层的dropout值。11. 哪些因素会影响内存使用内存使用受到模型大小、批量大小、LoRA参数数量以及数据集特性的影响。例如使用较短的训练序列可以节省内存。12. LoRA权重是否可以合并可以将多套LoRA权重合并。训练中保持LoRA权重独立并在前向传播时添加训练后可以合并权重以简化操作。13. 是否可以逐层调整LoRA的最优rank理论上可以为不同层选择不同的LoRA rank类似于为不同层设定不同学习率但由于增加了调优复杂性实际中很少执行。14. Lora的矩阵怎么初始化为什么要初始化为全0矩阵B被初始化为0而矩阵A正常高斯初始化。如果BA全都初始化为0那么缺点与深度网络全0初始化一样很容易导致梯度消失(因为此时初始所有神经元的功能都是等价的)。如果BA全部高斯初始化那么在网络训练刚开始就会有概率为得到一个过大的偏移值Δ W 从而引入太多噪声导致难以收敛。因此一部分初始为0一部分正常初始化是为了在训练开始时维持网络的原有输出(初始偏移为0)但同时也保证在真正开始学习后能够更好的收敛。如何系统的学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。一直在更新更多的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】01.大模型风口已至月薪30K的AI岗正在批量诞生2025年大模型应用呈现爆发式增长根据工信部最新数据国内大模型相关岗位缺口达47万初级工程师平均薪资28K数据来源BOSS直聘报告70%企业存在能用模型不会调优的痛点真实案例某二本机械专业学员通过4个月系统学习成功拿到某AI医疗公司大模型优化岗offer薪资直接翻3倍02.大模型 AI 学习和面试资料1️⃣ 提示词工程把ChatGPT从玩具变成生产工具2️⃣ RAG系统让大模型精准输出行业知识3️⃣ 智能体开发用AutoGPT打造24小时数字员工熬了三个大夜整理的《AI进化工具包》送你✔️ 大厂内部LLM落地手册含58个真实案例✔️ 提示词设计模板库覆盖12大应用场景✔️ 私藏学习路径图0基础到项目实战仅需90天第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关新闻

ANSYS许可证管理项目成功实施标准

ANSYS许可证管理项目成功实施标准

你要是问为啥我们公司ANSYS许可证老是用不完,还总是超限提示,那就别绕弯子了——这是典型的许可证管理不善。作为在一线摸爬滚打15年的技术老张,我今天就告诉你,怎么智能许可证优化管理平台让这个事儿彻底改观,实现盈利…

2026/7/3 9:49:45 阅读更多 →
从BIOS到UEFI:解锁虚拟机性能的终极指南

从BIOS到UEFI:解锁虚拟机性能的终极指南

一、BIOS的诞生:计算机启动的"基因密码" 1975年,IBM在推出首款个人计算机IBM 5100时,面临一个核心挑战:如何让操作系统与多样化的硬件设备无缝协作?由此诞生了BIOS(Basic Input/Output System&am…

2026/5/17 6:39:41 阅读更多 →
Rsync 性能优化实战:从慢速同步到高效传输的深度调优

Rsync 性能优化实战:从慢速同步到高效传输的深度调优

通过参数调优、网络优化与并行化策略提升大文件/海量文件同步效率 引言:为什么需要优化 rsync? Rsync 是 Linux 下经典的增量同步工具,但默认配置在以下场景中性能不足: 大文件传输(如虚拟机镜像、视频素材&#xff09…

2026/5/17 6:39:41 阅读更多 →

最新新闻

CVE-2024-21626 runc容器逃逸漏洞:原理、利用与防御实战

CVE-2024-21626 runc容器逃逸漏洞:原理、利用与防御实战

1. 项目概述:从一次容器逃逸事件说起最近在梳理容器安全事件时,一个编号为CVE-2024-21626的漏洞引起了我的注意。这个漏洞被命名为“runc容器逃逸漏洞”,听起来就很有分量。简单来说,它允许一个在容器内部运行的恶意进程&#xff…

2026/7/5 7:42:12 阅读更多 →
天天加班却不受重用?大佬聊职场进阶

天天加班却不受重用?大佬聊职场进阶

导读每天疯狂搬砖,加班加点地完成一个又一个任务;提交的代码行数在团队中名列前茅,遇到不懂的逻辑也绝不废话,闷头硬啃。你的工作状态是不是也是这样?在潜意识里,甚至把这种“高度配合”的踏实与勤奋&#…

2026/7/5 7:42:12 阅读更多 →
终极指南:3分钟学会使用ncmdump解锁网易云音乐NCM格式

终极指南:3分钟学会使用ncmdump解锁网易云音乐NCM格式

终极指南:3分钟学会使用ncmdump解锁网易云音乐NCM格式 【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 你是否遇到过这种情况:从网易云音乐下载了喜欢的歌曲,却只能在特定应用中播放?NC…

2026/7/5 7:40:12 阅读更多 →
STM32F410RB与MC6470 IMU的高精度姿态控制实现

STM32F410RB与MC6470 IMU的高精度姿态控制实现

1. 项目背景与硬件选型解析在嵌入式系统开发中,精确的运动感知和控制能力是许多应用的核心需求。MC6470作为mCube推出的6自由度惯性测量单元(6DOF IMU),集成了三轴加速度计和三轴磁力计,能够提供完整的空间姿态数据。而STM32F410RB则是STMicr…

2026/7/5 7:34:11 阅读更多 →
MAX9744与PIC18F2455构建高效D类音频放大器方案

MAX9744与PIC18F2455构建高效D类音频放大器方案

1. 项目背景与核心组件解析在DIY音频设备改造和嵌入式音频系统开发中,功率放大器的选型直接影响最终音质表现。MAX9744作为一款高效D类音频功率放大器,搭配PIC18F2455微控制器的灵活控制能力,可以构建出性能优异且可编程的音频放大解决方案。…

2026/7/5 7:34:11 阅读更多 →
STM32与DS28EC20 1-Wire EEPROM嵌入式存储方案实战

STM32与DS28EC20 1-Wire EEPROM嵌入式存储方案实战

1. 项目背景与核心需求 在嵌入式系统开发中,持久化存储用户配置和偏好设置是一个经典需求。无论是工业控制设备、消费电子产品还是物联网终端,都需要在断电后仍能保留关键参数。传统方案如EEPROM或Flash存储各有局限——前者容量小、成本高,后…

2026/7/5 7:34:11 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻