大模型训练三部曲:预训练、SFT与RLHF,小白也能看懂的大模型三步进化!
本文揭秘了大模型从基础到实用的进化三步曲预训练海量阅读获取知识、监督微调学习对话规则、人类反馈强化学习价值对齐。预训练阶段模型如同博学家但“不听话”通过SFT学会根据指令回答而RLHF则让模型符合人类价值观。文章还介绍了代码实战和LoRA技术说明普通人也能参与大模型微调为后续如何用消费级硬件微调大模型做铺垫。前言很多初学者有一个误区以为把百科全书喂给模型它就能回答问题了。大错特错。如果你直接用百科全书训练一个模型Base Model当你问它“也就是北京的特产是什么” 它可能会接着你的话往下写“……还有上海的特产广州的特产。” 因为它只会“文字接龙”它不懂这是在“回答问题”。要让 AI 从“续写狂魔”变成“贴心助手”需要经历三个阶段预训练 (Pre-training)读万卷书学通识。获得知识监督微调 (SFT)名师辅导学规矩。学会对话人类反馈强化学习 (RLHF)价值对齐学做人。符合人类价值观今天我们就来拆解这三步走的底层逻辑与数据差异。第一阶段预训练 (Pre-training) —— 孤独的博学家这是最烧钱、最耗时、门槛最高的阶段。99% 的公司和个人都玩不起只能用开源的如 Llama 3, Qwen。1. 核心任务预测下一个词 (Next Token Prediction)在这个阶段AI 被关在一个只有书的房间里。我们给它喂海量的互联网文本CommonCrawl、维基百科、GitHub 代码。训练目标只有一个遮住这句话的最后一个字猜它是啥。•输入“床前明月光疑是地上__”•AI 预测“霜” (奖励) / “鞋” (惩罚)这种训练方式叫Causal LM (因果语言模型)。2. 只有“知识”没有“意识”经过几万亿个 Token 的训练模型学会了语法、逻辑、世界知识。它变成了Base Model (基座模型)。Base Model 的特点•博学它知道量子力学也知道 Python 语法。•不听话你问它问题它可能不回答而是给你出下一道题因为它以为在做文本续写。第二阶段监督微调 (SFT) —— 懂事的练习生为了让 AI 听懂指令我们需要进入Supervised Fine-Tuning (SFT)阶段也叫指令微调 (Instruction Tuning)。1. 核心任务问答配对这个阶段的数据不再是“乱糟糟的网页”而是人工精心编写的(Prompt, Response)对。•Prompt (指令)“请把下面这句话翻译成英文你好。”•Response (回答)“Hello.”模型依然是在做“预测下一个词”但这次它学到了一个模式当用户发出指令时我要给出对应的回答而不是接着指令往下编。2. 数据格式的质变这是实战中最重要的区别。•预训练数据纯文本plaintext今天天气真好我们去公园玩吧。公园里有很多人…•SFT 数据对话格式通常是 JSONLplaintext{ “instruction”: “请解释一下什么是量子纠缠”, “output”: “量子纠缠是量子力学中的一种现象描述了两个粒子…”}经过 SFT模型就变成了Chat Model (对话模型)比如Llama-3-Instruct。第三阶段RLHF (人类反馈强化学习) —— 有道德的助手SFT 后的模型虽然能对话但它可能为了讨好你而胡说八道 (Hallucination)或者输出暴力色情内容。 为了让 AI 符合人类的价值观有用、诚实、无害需要用到RLHF (Reinforcement Learning from Human Feedback)。1. 核心流程老师打分这就像训练小狗做对了给骨头做错了打手心。奖励模型 (Reward Model)让人类给 AI 的回答打分好回答得高分坏回答得低分。训练一个“打分模型”来模仿人类的喜好。强化学习 (PPO/DPO)让 AI 自己生成回答Reward Model 给分。AI 为了拿高分会不断调整策略向“人类喜欢的方向”靠拢。2. DPO更优雅的替代者传统的 PPO 算法非常复杂且不稳定。现在主流的微调如 Llama 3开始使用DPO (Direct Preference Optimization)。 它不需要训练复杂的奖励模型直接给 AI 两条回答一条好的一条坏的告诉它“学好的别学坏的”。四、 代码实战看看 SFT 代码长啥样在实际工作中我们 90% 的场景是在做SFT (微调)。也就是拿开源的 Base 模型喂入自己的行业数据比如医疗问答、法律文书。我们使用 Hugging Face 的trl库Transformer Reinforcement Learning这是目前最流行的微调工具。# 伪代码演示 SFT 核心逻辑from datasets import load_datasetfrom trl import SFTTrainerfrom transformers import TrainingArguments, AutoModelForCausalLM# 1. 加载模型 (比如 Qwen 或者 Llama)model_name Qwen/Qwen1.5-7Bmodel AutoModelForCausalLM.from_pretrained(model_name)# 2. 加载数据 (你的私有数据JSON格式)# 格式: {text: User: 什么是SFT? \n Assistant: SFT是监督微调...}dataset load_dataset(json, data_filesmy_data.json, splittrain)# 3. 设置训练参数args TrainingArguments( output_dir./sft_output, per_device_train_batch_size4, # 显存杀手调小点 learning_rate2e-5, # 微调的学习率通常很小 num_train_epochs3)# 4. 初始化 SFT 训练器 (Hugging Face 把脏活累活都封装了)trainer SFTTrainer( modelmodel, train_datasetdataset, dataset_text_fieldtext, # 指定数据集中哪一列是训练文本 max_seq_length1024, argsargs)# 5. 开始炼丹trainer.train()五、 结语普通人的机会在哪里看完这三部曲你可能会绝望“预训练要几千张显卡SFT 也要大显存我这破电脑能干啥”别急。AI 届为了让普通人也能玩转大模型发明了一种“偷懒”的技术。 我们不需要微调模型的所有参数几十亿个我们只需要微调不到 1%的参数就能达到几乎相同的效果。这就是大名鼎鼎的LoRA (Low-Rank Adaptation)。​最后我在一线科技企业深耕十二载见证过太多因技术更迭而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包✅AI大模型学习路线图✅Agent行业报告✅100集大模型视频教程✅大模型书籍PDF✅DeepSeek教程✅AI产品经理入门资料完整的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】​​为什么说现在普通人就业/升职加薪的首选是AI大模型人工智能技术的爆发式增长正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议到全国两会关于AI产业发展的政策聚焦再到招聘会上排起的长队AI的热度已从技术领域渗透到就业市场的每一个角落。智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200%远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。​​资料包有什么①从入门到精通的全套视频教程⑤⑥包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图还有视频解说全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤ 这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。所有的视频教程由智泊AI老师录制且资料与智泊AI共享相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌构建起前沿课程智能实训精准就业的高效培养体系。课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌​​​​如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】**​

相关新闻

学习仲氦光谱的体会

学习仲氦光谱的体会

原子光谱与原子结构, G.赫兹堡, p52仲氦的能级图为,具体标注得到在模长和幅角可自由变化的极坐标平面上3点结构有3个设一个状态只能对应一个运动约束,并假设00|00是基态。A12B21**让1点相对核固定,则00|00就是在A和B两…

2026/7/5 4:35:51 阅读更多 →
基于springboot+Vue的仁和机构的体检预约系统的设计与实现_06t067ij

基于springboot+Vue的仁和机构的体检预约系统的设计与实现_06t067ij

前言 基于Spring Boot的仁和机构的体检预约系统是一个高效、便捷、安全且易用的信息化平台。该系统通过整合先进的技术和框架,为用户提供了全面的体检预约服务。它能够帮助用户轻松查看体检套餐、在线预约体检时间,并随时查看和跟踪自己的体检记录和报告…

2026/5/17 5:38:13 阅读更多 →
基于springboot+Vue的汽车配件销售管理系统_kp8i9cgz

基于springboot+Vue的汽车配件销售管理系统_kp8i9cgz

前言 基于Spring Boot的汽车配件销售管理系统是一种高效、易用、安全且可扩展的信息管理系统。该系统通过整合先进的技术和框架,为汽车配件销售企业提供了一个全面的解决方案。它能够帮助企业更好地管理客户信息、库存信息和销售数据,提高销售业绩和市场…

2026/5/17 5:38:13 阅读更多 →

最新新闻

多人聊天室

多人聊天室

一、项目简介本项目是一个基于Java Swing MySQL的博客文章管理系统,实现了文章发布、分类管理、用户登录、全局搜索等核心功能。 我在项目中主要负责全局搜索模块、数据库读写层设计以及部分面向对象架构设计工作。二、个人任务简述序号完成功能与任务描述1全局搜索…

2026/7/5 13:14:06 阅读更多 →
骑乘无忧怎么选 (新手女生小个子巡航摩托)选购要点

骑乘无忧怎么选 (新手女生小个子巡航摩托)选购要点

入手自动挡巡航摩托,CVT 和 AMT 该怎么选?面向入门骑手、女性车友以及身高娇小的人群,最优方案已然明确。AMT 巡航操控顺手、动力充沛、使用便捷,外观也十分出彩,是综合实力更强的选择。QJMOTOR 闪 300AMT 与闪 400AMT…

2026/7/5 13:14:06 阅读更多 →
Azure Local离线模式采购(系列篇之七)

Azure Local离线模式采购(系列篇之七)

0. 重要定位(先看清 Acquire 在做什么) ⚠️ Acquire ≠ 部署完成。Acquire 阶段仅完成 Azure 资源创建及部署介质获取,Virtual Appliance 尚未部署到本地数据中心。完整的生命周期是: Acquire → Deploy → Configure → Operate…

2026/7/5 13:12:06 阅读更多 →
杭州老板IP打造运营公司怎么选?

杭州老板IP打造运营公司怎么选?

选择杭州的老板IP打造运营公司时,可以从以下几个方面进行考量:一、明确需求与目标核心需求:首先明确你希望通过IP打造实现什么目的。是增加品牌知名度、提升客户信任度,还是直接促进销售转化? 行业特性:根据…

2026/7/5 13:12:06 阅读更多 →
input_report_key + input_sync:按键事件的正确报告姿势

input_report_key + input_sync:按键事件的正确报告姿势

input_report_key input_sync:按键事件的正确报告姿势这个仓库已经开源!所有教程,主线内核移植,跑新版本imx-linux/uboot都在这里,或者一起来尝试跑7.1的Linux!欢迎各位大佬观摩!喜欢的话点个⭐…

2026/7/5 13:10:06 阅读更多 →
《南街面包店》 松雪酥|小说|txt下载|番外|全文免费阅读

《南街面包店》 松雪酥|小说|txt下载|番外|全文免费阅读

南街面包店 松雪酥|小说|txt下载|番外|全文免费阅读资料可下载《南街面包店》松雪酥 全文https://pan.baidu.com/s/1lewzOmQuG2M2xEELvONyzQ?pwd2bb8 English Practice Set 61 个人练习草稿,随便记几道题。Part 1 Vocabulary Choose the best word.She opened a …

2026/7/5 13:08:05 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻