如今大模型应用愈发火爆落地门槛也在持续降低。从去年年底开始我们团队仅投入少量精力就开展了一系列 AI 探索与实践并成功上线了垂直物流领域的答疑机器人产品。本文将站在普通开发者 / 使用者视角完整记录从学习到落地的全过程纯实战经验分享和各位想入门大模型的朋友一起交流进步。1、背景当前大模型的应用还是处于比较初期的阶段以物流领域常见场景为例可以看到一些行业常见要求和当前大模型能力有较多冲突在这些业务生产环境应用之前我们还是希望先在容错性较高的场景进行一些实践。因此我们尝试基于大模型来优化答疑机器人为后续更多的深度应用积累实践经验。下面的示例图片由大模型生成仅供参考▐传统答疑机器人的痛点在大模型崛起之前传统答疑机器人一般有两种模式\1. 基于多级目录分类让用户慢慢翻到想了解的知识。\2. 基于传统关键词检索方式根据用户提问在知识库中找到和用户提问相关的知识。核心痛点是不能快速准确找到用户想寻找的答案。▐我们的目标由于我们答疑机器人受众不是C端普通用户而是内部作业人员因此机器人给出的回答在语气或者回答方式上不需要过多润色但我们希望它具备以下一些特点\1. 可以准确理解提问人员自然语言提问的语义给出标准答案\2. 希望可以比较快速给出答案比如5s之内\3.不希望答非所问提供不属于我们业务范围内的回答如果提问的问题确实没有答案希望拒绝回答并引导到人工。2、迭代过程我们结合业内经验和自身诉求大致进行了如下五个迭代下面详细展开。▐阶段一向量搜索●嵌入Embedding是一种向量化方法把文本图像视频等数据转换为向量同时特别强调保留数据之间的语义关系。比如“苹果”和“橘子”要比“苹果”和“太阳”的向量值更为接近语义相似。●Embedding 模型服务提供具体的Embedding能力的在线服务可以直接调用 OpenAI阿里云等远程服务也可以本地部署。低成本试用可以尝试阿里云灵积。●向量数据库是用于存储和检索高维向量数据的数据库系统特别擅长相似性搜索。低成本试用可以使用阿里云的 Hologres 数据库。向量搜索可以类比我们传统的关系型数据库检索只不过向量搜索是按照语义来进行相似度匹配搜索。可以看到一端文本转为向量存在向量数据库中的字段展示根据不同的Embedding模型维度也有不同通常达到上千维。向量搜索流程下图是一个简化版的向量搜索流程图分为数据准备和在线推理两个部分\1. 数据准备部分需要把历史沉底的知识库数据清洗为多个QA问答对的格式把问题答案问题对应的向量存储在向量数据库。\2. 在线推理部分先把用户提出的问题通过向量服务转为向量在向量数据库中找到与该问题最为相似的一条数据然后通过相似度阈值来判断用户提问的问题和数据存储的标准问题是否足够相似来决定是否把对应的答案返回给用户。效果分析假设有这样一个标准问答対Q遇到不可抗力因素无法配送如何操作A1. 系统进行提报详细步骤XXX提问类型现场提问结果分析长度和语义相似的泛化问题提问不可抗力因素无法配送该怎么办问题比较接近时通过取向量距离最小的问题对应的答案正确率较高问题较长且看起来差不多但语义不同的问题提问不可抗力因素比较难以配送怎么办下雪封路了不能作业该怎么办问题较长时或者和标准问题类似但语义不同纯靠向量无法很好地识别语义。导致错误率较高不相关问题提问今天天气怎么样拒绝回答的向量距离阈值不好把控尝试下来纯靠向量搜索的优势在于对于原始问题或者细微修改的问题可以比较快速、准确找到答案。不足之处是\1.问题较长且多个问题语义相近时准确率下降\2. 向量距离的阈值不好把控对于无关问题的拒绝回答机制不好处理。▐阶段二RAGRAG是知识问答领域业内落地最多的实践同时 RAG 也是应用很广且很容易上手的一种大模型应用方式。RAGRetrieval-Augmented Generation 检索增强生成因为大模型本身没有垂域的知识RAG其实就是把“查资料”和“写答案”这两个步骤结合在一起。先用检索系统找到一些跟问题相关的资料然后再用大模型类似于GPT来编写一个详细的答案来提高AI回答垂直领域问题的准确性。RAG 就像让一个大学理科生知识储备丰富的大模型拿着初中生的历史课本做开卷考试相似度检索虽然他本来不会但靠查资料准确率还可以效果不错。就算书上没有他也可以凭借自己的本事写满试卷存在幻觉。RAG流程下图是简化版本的通过RAG实现知识问答的流程图可以看到整体和第一阶段的向量搜索是比较类似的\1. 在数据准备阶段这里的原始数据可能是大量的文档资料我们需要尽量清洗为统一格式的文档每个文档都按照一定的规则进行分段。这里的分段规则和大小需要多次尝试来保证最终的检索速度和总结效果。然后把分段后的知识向量化存入向量数据库。\2. 在线推理阶段首先要做的事情是把用户提问的问题从数据库中检索出N条相似的分段作为下一步大模型总结的参考资料然后大模型拿着这些资料按照要求总结出一个答案给到提问者。RAG上手目前业内有很多现成的产品可以快速体验RAG整体可配置的交互和原理大同小异推荐阿里云百炼的应用中心来进行相关操作。平台对应的文档中心有详细的实践教程在准备好基础文档的前提下基本五分钟就可以搭出来一个智能体应用。以下用一个简单的示例演示下RAG流程和需要关注的点以下相关截图来源阿里云百炼平台核心步骤\1. 创建一个RAG智能体应用主要关注模型选择prompt希望大模型怎么帮你总结知识库召回策略等。\2. 上传知识库重点关注向量模型的选择分段规则。\3. 在检索配置这里设置召回类型和规则。\4. 测试问答效果效果分析优势1.【正确率高】正确率基本可以达到90%以上。2.【话术控制】回复话术可以根据prompt较为灵活的控制。包括期望的语气回复格式等。3.【兜底返回】可以控制知识库没有的内容拒绝回答只是返回固定文案。不足\1. 耗时较长经常一次完整回复需要10s以上\2. 按调用量产生调用费用QPS较高时费用也会较高\3. 因为允许大模型发挥因此会存在幻觉的情况也就是会有偶发的答非所问的case。▐阶段三SFT上面两种方案各有优劣之后我们继续尝试了垂域模型微调技术看看能不能训练出一个无所不知的垂直领域小模型。先贴一些相关的概念\1. PTPre-Training预训练使用大量机器和未标记数据如GPT-4,Qwen2-7B等\2. SFTSupervised Fine-Tuning监督式微调使用少量标注好的领域数据来训练基座大模型来获得可处理专属领域任务的专有模型过程\3. FFT全参数微调模型整个参数结构和权重会变需要资源多训练彻底但容易过拟合和灾难遗忘\4. lora微调一种常用的部分参数微调方式通过矩阵运算原理只微调小部分参数达到和全参数微调类似的不错效果\5. Instruction-Tuning指令微调旨在提高对多种自然语言指令的多任务处理能力训练数据要求特定格式。SFT的过程就像一个家长教五岁(一个懂不少东西的小模型)的小孩背20篇古诗背了三天发现还是不会(欠拟合)背了三个月发现挺好的到位可以倒背如流背了三年还是只会这几首过拟合不仅不会自己写诗并没有理解诗的本质而且 11 等于几都不知道了。(灾难性遗忘)SFT流程一个SFT的简化版流程图如下所示一般分为三块内容\1. 构建数据高质量的数据非常重要数据量的大小和质量会极大影响最终模型的效果。\2. 模型微调和评测部分是SFT最核心的部分除了选择合适的大模型基座外重点需要根据评测效果来多次调整训练所需的超参数直到大模型表现达到自己的预期。\3. 模型部署阶段可以根据评测结果选择表现最佳的模型快照进行部署来为后续提供服务。SFT上手实践目前模型微调平台也有很多这里使用阿里云百炼平台简单展示下核心步骤。以下截图来源阿里云百炼平台\1.数据准备以知识问答机器人为例这一步需要整理日常积累的原始问答数据经过人工打标转换为指令微调数据集的格式并上传到平台。\2.创建微调的训练任务重点关注基座模型评测下来小模型中最新的qwen2-7B 表现较好。\3.调整训练配置一些比较核心的配置循环次数表示模型看几遍训练资料根据我们的目的来测试下来这里循环次数越多模型泛化能力越差但也更加稳定。学习率模型开始更新参数时的幅度可以决定是否学习到数据特征。批次大小根据训练轮数选择合适的步数保证一次完整的训练可以保存若干个快照。\4. 等待训练完成观察日志是否有loss损失函数跳跃过大未收敛等异常情况。\5.模型评测选择刚才训练好的模型进行数据推理可以人工评测也可以利用更强大的大模型来进行评测。\6. 对推理数据打分可以根据我们的要求来选择评测和打分方式也可以借助平台能力完成打分。比如可以写个脚本直接比标准答案完全一致也可以用评测大模型给评测结果打分\7. 测评通过后将模型部署到平台并进行测试运维服务提供等。一些尝试下来的有效手段数据构造\1. 通过人工 通义千问72B 等大模型同义改写问题来扩充训练数据数量以及让模型更好学习特征进行了十倍扩充。大模型改写遇到不可抗力因素无法配送如何操作- 遇到不可抗力因素无法配送该怎么办人工改写遇到不可抗力因素无法配送如何操作- 遇到大雪等特殊情况不能作业了\2. 打乱训练数据中相似数据的顺序防止学到顺序相关的错误的特征。\3. 是否有必要放大量无关的数据集这里还是和我们训练的期望效果来决定如果我们希望模型回答稳定且只希望它处理和训练数据相关的知识不需要它的通用能力那这里不需要混合数据训练。微调\1. 通过观察 loss 收敛曲线和测评效果调整初始学习率和训练轮数我们的场景下一般会把最终loss收敛在0.1以下。\2. 尝试当loss曲线不再收敛时对应的快照作为最终的产出模型避免过拟合。评测 – 构建丰富的评测数据集1.【是否欠拟合】先使用训练集数据进行推理评测然后再试用改写后的相同语义的测试集进行推理评测保证两者都有较高分数。2.【是否过拟合】对和训练数据语义无关的问题进行评测看是否答案是训练数据集内的。效果分析实践下来发现的一些不一定对的认知1.【过拟合】经过sft大模型的一些通用能力的遗忘和一些过拟合行为是经常会发生的不需要完全避免还是要根据我们的目标来。2.【prompt】sft 的小模型使用常见的提示词工程技巧 构造 prompt 提升作用不大基本保证提问时和训练时的 prompt 保持一致即可。3.【推理能力】可能和我们较少的原始训练数据万条和训练目标保证准确率有关当前微调后的小模型比较难有举一反三的能力所以构造多样化的训练集和评测集很重要。优势\1. 由于使用的 7B 的小模型因此响应快一般全量结果3s左右可以返回。\2. 准确率高经过了完整的测评流程产出只要提问和训练数据语义相关就可以有较高的准确率。缺点\1. 有一定的微调和部署成本。\2. 对于未训练过的问题因为模型本身无法判断因此会有乱回答的情况。▐阶段四多种技术结合使用\1.SFT向量数据库希望微调后的大模型对于未训练过的问题直接拒绝回答思路如果SFT大模型返回的结果和向量搜索返回的前几条结果相似度不高认为是未训练过的数据直接拒绝回答。\2.RAG SFT将SFT后的模型作为 RAG 里的总结推理模型–不可行因为RAG部分的总结推理模型用的是大模型的通用的总结能力而不是QA问答能力因此这里不适合使用经过QA训练数据微调后的模型。命中 SFT 未训练过的问题时跳转到 RAG 流程回答– 综合考虑RAG强大的兜底能力和费用问题可以根据我们的诉求选择性开启于是有了让 向量搜索RAGSFT 各司其职来实现更好问答效果的实践以下是一次问答的简化版本的流程图▐阶段五工程优化1.**【体验优化】**丰富点赞点踩图片和视频回答展示相似语义问题列表等体验能力。2.**【自我迭代】**数据清洗模型训练部署等环节通过工程自动化实现模型的自我学习能力大模型在快速发展我们需要有快速微调模型并切换的能力而且未来成本一定会降低。3.**【数据沉淀】**一线反馈数据高质量人工答疑数据统一沉淀为文档作为后续数据资产。结语作为从事工程应用领域的开发我们不能只根据“目前AI能做什么”来构建自己的产品也要看到未来AI的发展方向比如之前大家一致诟病的大模型推理能力较弱于是我们看到很多很重的提示词工程和思维链模式来解决推理问题。但可能在推理方面的表现很多很重的解决方案并不如最新发布的 OpenAI O1大模型。可以预见的是随着技术的发展大模型的能力一定会越来越强相关的调用成本一定会越来越低对模型定制的确定性也会越来越好。除了保持学习实践之外哪些才是工程应用真正需要沉淀的能力和方向是我们需要思考的命题。最后对于正在迷茫择业、想转行提升或是刚入门的程序员、编程小白来说有一个问题几乎人人都在问未来10年什么领域的职业发展潜力最大答案只有一个人工智能尤其是大模型方向当下人工智能行业正处于爆发式增长期其中大模型相关岗位更是供不应求薪资待遇直接拉满——字节跳动作为AI领域的头部玩家给硕士毕业的优质AI人才含大模型相关方向开出的月基础工资高达5万—6万元即便是非“人才计划”的普通应聘者月基础工资也能稳定在4万元左右。再看阿里、腾讯两大互联网大厂非“人才计划”的AI相关岗位应聘者月基础工资也约有3万元远超其他行业同资历岗位的薪资水平对于程序员、小白来说无疑是绝佳的转型和提升赛道。对于想入局大模型、抢占未来10年行业红利的程序员和小白来说现在正是最好的学习时机行业缺口大、大厂需求旺、薪资天花板高只要找准学习方向稳步提升技能就能轻松摆脱“低薪困境”抓住AI时代的职业机遇。如果你还不知道从何开始我自己整理一套全网最全最细的大模型零基础教程我也是一路自学走过来的很清楚小白前期学习的痛楚你要是没有方向还没有好的资源根本学不到东西下面是我整理的大模型学习资源希望能帮到你。扫码免费领取全部内容最后1、大模型学习路线2、从0到进阶大模型学习视频教程从入门到进阶这里都有跟着老师学习事半功倍。3、 入门必看大模型学习书籍文档.pdf书面上的技术书籍确实太多了这些是我精选出来的还有很多不在图里4、AI大模型最新行业报告2026最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5、面试试题/经验【大厂 AI 岗位面经分享107 道】【AI 大模型面试真题102 道】【LLMs 面试真题97 道】6、大模型项目实战配套源码适用人群四阶段学习规划共90天可落地执行第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容3、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】