大模型落地实战:RAG、微调与提示工程怎么选?万字长文详解流程与优化(建议收藏)
1、提示工程VS RAG VS 微调什么时候使用2、什么场景下应该选择RAG 而不是Fine-tuning?知识需要频繁更新如产品文档、FAQ用RAG 只需更新向量库需要引用来源如客服系统需要告诉用户答案来自哪个文档数据量有限Fine-tuning 需要大量高质量数据RAG 门槛更低需要实时信息新闻、股票等实时数据无法通过训练固化到模型预算有限RAG 的实现成本远低于微调。三种模式不是互斥的实际项目中常常组合使用。 比如RAG Fine-tuning (微调模型让它可以更好地利用检索结果) 或者RAG Prompt Engineering (优化检索后的提示词模板)。3、文档分块策略有哪些文档分块(Chunking) 是RAG 系统的基础环节分块质量直接影响检索效果。4、项目中用什么分块策略为什么选它如果项目知识库是产品FQA在项目中使用滑动窗口 句子边界的混合策略:首先按句子边界切分保证每个块语义完整然后使用滑动窗口设置20%重叠(window512, step100) 重叠确保跨块的信息不会丢失。选择原因:知识库是产品FAQ段落之间有上下文依赖用户问题可能涉及多个连续段落的信息20%重叠在存储开销和检索质量间取得平衡分块大小经验值:一般推荐256-1024 tokens小块: 检索精度高但可能丢失上下文大块: 上下文完整但噪声多检索精度下降常见配置: chunk_size512, overlap50-100。5、RAG系统的流程RAG的步骤Indexing 如何更好地把知识存起来。Retrieval 如何在大量的知识中找到一小部分有用的给到模型参考。Generation 如何结合用户的提问和检索到的知识让模型生成有用的答案。这三个步骤虽然看似简单但在RAG应用从构建到落地实施的整个过程中涉及较多复杂的工作内容。6、RAG系统详细的步骤都有哪些关键步骤Step1文档解析将PDF、Word、HTML等格式转换为纯文本。工具: PyPDF2, docx, BeautifulSoup。注意处理表格、图片等特 殊内容。Step2文档分块(Chunking)将长文档切分为适合检索的小块。需要平衡块大小、上下文完整性、检索精度。Step3向量化(Embedding)使用Embedding模型将文本块转换为向量。常用模型: text-embedding-v4等。Step4向量存储将向量存入向量数据库。FAISS (本地)、Milvus (分布式)、 Pinecone (云服务)。同时存储元数据用于过滤和展示。Step5Query 改写 (可选)处理模糊问题、补充上下文。使用LLM改写或扩展用户问题提高检索召回率。Step6向量检索计算Query向量与文档块向量的相似度返回Top-K结果。距离度量: 余弦相似度、L2距离、内积。Step7重排序(Rerank)使用Cross-Encoder对Top-K结果精排选出最相关的Top N。显著提升最终效果。Step8Prompt 构建将检索到的文档块拼接到Prompt中作为LLM的上下文。注意控制总长度避免超过模型上下文窗口。Step9LLM 生成LLM基于Prompt生成最终答案。可以要求模型引用来源提高可信度。7、Embedding模型有哪些选择8、Embedding模型选择都有哪些考虑因素语言支持中文场景BGE、text-embedding-v4英文场景OpenAI系列多语言bge-m3部署方式API调用OpenAI、通义私有化部署BGE、M3E混合都支持性能指标延迟本地部署 API调用吞吐取决于硬件/并发精度需要在自己数据上测试成本考量API按量付费初期低私有部署需GPU长期划算维度影响存储成本9、如果RAG 效果很差可以从哪几个方面去调试会按照RAG 的流程逐步排查问题Step1检索阶段调试Step2生成阶段调试Step3调试工具与方法# 调试检索效果的方法 def debug_retrieval(query, index, metadata, k10): 打印检索详情帮助调试 query_vec get_embedding(query) distances, indices index.search( np.array([query_vec]).astype(float32), k ) print(fQuery: {query}) print(- * 80) for rank, (idx, dist) in enumerate(zip(indices[0], distances[0])): if idx -1: continue doc metadata[idx] similarity 1 / (1 dist) # L2距离转相似度 print(fRank{rank1} | 相似度: {similarity:.4f} | 距离: {dist:.4f}) print(f来源: {doc.get(source, N/A)}) print(f内容: {doc[text][:100]}...) print(- * 40) return indices, distances先用debug_retrieval检查检索结果是否正确如果检索结果好但生成差优化Prompt如果检索结果差从分块/Embedding/Query改写入手记录Bad Case建立评估数据集持续改进。10、当用户的问题很模糊或者依赖上一轮对话时RAG 怎么优化Step1问题类型分析Step2Query 改写技术Step3多轮对话RAG 架构实践建议对话历史不宜过长一般保留最近3-5轮可以用LLM判断是否需要改写避免每次都改写改写模型可以用较小的模型降低延迟记录改写前后的Query便于调试。11、只用向量检索吗它有什么缺点什么是混合检索向量检索的缺点对精确关键词匹配不敏感(如产品型号、人名) 可能漏掉字面完全匹配的内容Embedding模型对领域专有词理解可能不准。混合检索结合向量检索和关键词检索(BM25)取长补短。12、检索召回了20 条文档怎么确保喂给LLM 的是最好的3条使用Rerank (重排序) 技术对初步召回的结果进行精排。Rerank流程如下Bi-Encoder (向量检索) Query和Document分别编码计算向量相似度。速度快适合大规模召回Query和Doc独立编码交互信息少精度相对较低。Cross-Encoder (Rerank) Query和Document拼接后一起编码直接输出相关性分数。精度高能捕捉细粒度交互速度慢只能处理少量候选适合对Top-K精排。Rerank 实践建议:召回数量(recall_k) 一般设置为最终需要数量的5-10倍Rerank模型选择中文推荐bge-reranker多语言用CohereRerank会增加延迟需要在效果和速度间权衡可以设置分数阈值过滤低相关性结果。13、系统上线后怎么维护和迭代知识库知识库维护是一个持续的过程包括以下几个方面:14、维护知识库能否通过Agent RLAgent RL的核心思路让Agent从环境反馈中学习改进策略。 关键是定义好状态、动作、奖励。对于企业场景推荐方案A 选择性微调的组合。维护最佳实践定期审核每周/月审核Bad Case识别系统性问题增量更新避免全量重建使用增量方式更新索引版本控制保留历史版本索引支持快速回滚文档生命周期设置过期时间自动标记/清理过期内容监控告警检索空结果率、用户负反馈率等指标超阈值时告警。15、如何评估一个RAG 系统的好坏RAG系统的评估需要从检索质量和生成质量两个维度进行:16、什么是RAGAS?RAGAS (Retrieval Augmented Generation Assessment) 是一个专门用于评估 RAG 系统的开源框架由Exploding Gradients 团队开发。核心特点:无需人工标注: 使用LLM 自动评估大幅降低评估成本端到端评估: 同时评估检索质量和生成质量指标全面: 提供Faithfulness、Answer Relevancy、Context Precision 等核心指标易于集成: 与LangChain、LlamaIndex 等主流框架无缝对接。安装: pip install ragasGitHub: https://github.com/explodinggradients/ragas生成质量指标(RAGAS框架)Faithfulness (忠实度)答案是否基于检索到的内容而非幻觉。评估方法: 用LLM判断答案中的每个声明是否能在上下文中找到支撑。Answer Relevance (答案相关性)答案是否回答了用户的问题。评估方法: 用LLM根据答案反向生成问题与原问题比较相似度。Context Relevance (上下文相关性)检索到的内容是否与问题相关。评估方法: 计算上下文中与问题相关的句子比例。Context Recall (上下文召回)检索是否召回了回答问题所需的所有信息。评估方法: 对比标准答案检查所需信息是否被检索到。评估建议:构建包含50-100个样本的评估集覆盖各类问题定期运行评估监控系统质量变化重点关注Faithfulness这是RAG的核心价值结合定量指标和人工抽检。17、什么是GraphRAG与传统RAG的区别GraphRAG 是微软提出的增强型RAG架构通过构建知识图谱来增强检索和推理能力。GraphRAG 使用建议:构建成本高适合高价值、复杂的知识库对于简单FAQ传统RAG已足够可以与传统RAG结合: 简单问题用传统RAG复杂问题用GraphRAG。18、GraphRAG 中的核心概念都是什么Entity (实体)从文档中抽取的关键对象。例: 人名、地名、产品名、概念Relationship (关系)实体之间的联系。例: “属于”、“制造”、“位于”Community (社区)图中紧密相连的实体群组通过社区检测算法发现Community Summary每个社区的LLM生成摘要用于回答全局性问题。19、GraphRAG 中的两种查询模式都是什么Local Search (局部搜索)适合“XXX公司的CEO是谁” 这类精确问题。流程Query - 找到相关实体- 沿关系扩展- 收集上下文- 生成答案。Global Search (全局搜索)适合“这篇文档的主要观点是什么” 这类总结性问题。流程Query - 遍历社区摘要- Map-Reduce聚合- 生成综合答案。20、RAG 和Fine-tuning 怎么选选RAG知识更新频繁、需要引用来源、数据量小、预算有限。选Fine-tuning需要改变模型风格/格式、领域术语复杂、追求推理速度。组合使用先微调让模型更好地遵循检索结果再用RAG注入知识。21、如何处理知识库中的矛盾信息为文档添加时间戳元数据优先使用最新的为文档添加权威度标签优先使用官方来源检索时同时返回多个来源让LLM综合判断在Prompt中要求LLM指出信息冲突。22、RAG 系统的延迟优化有哪些方法向量检索使用ANN索引(HNSW, IVF)降低精确度换速度Embedding使用本地小模型或异步预计算Rerank减少候选数量或使用蒸馏小模型LLM使用流式输出选择更快的模型缓存相似Query复用检索结果。23、如何处理超长文档分层索引先检索摘要再检索详细段落滑动窗口保留上下文的分块策略长上下文模型使用支持128K的模型(如Qwen, Claude)迭代检索先检索一部分根据LLM判断是否需要更多24、如何防止LLM幻觉Prompt 明确指令“仅基于提供的信息回答不确定时说不知道”要求引用让LLM标注答案来源于哪个文档降低temperature减少随机性答案验证用另一个LLM检查答案是否有上下文支撑Rerank 精选确保上下文高度相关25、多模态RAG 怎么做图片使用多模态Embedding模型(如CLIP, 通义VL) 将图片向量化表格转换为Markdown或JSON保持结构信息PDFOCR提取文字 图表单独处理视频抽帧 语音转文字分别建索引统一使用多模态Embedding实现跨模态检索。26、如何保证RAG 系统的安全性Prompt 注入防护过滤用户输入中的指令权限控制根据用户角色过滤可检索的文档敏感信息处理脱敏后入库或标记敏感级别输出过滤检查生成内容是否包含敏感信息审计日志记录所有查询和检索内容。普通人如何抓住AI大模型的风口领取方式在文末为什么要学习大模型目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 大模型作为其中的重要组成部分 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 为各行各业带来了革命性的改变和机遇 。目前开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景其中应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过30%。随着AI大模型技术的迅速发展相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业人工智能大潮已来不加入就可能被淘汰。如果你是技术人尤其是互联网从业者现在就开始学习AI大模型技术真的是给你的人生一个重要建议最后只要你真心想学习AI大模型技术这份精心整理的学习资料我愿意无偿分享给你但是想学技术去乱搞的人别来找我在当前这个人工智能高速发展的时代AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料能够帮助更多有志于AI领域的朋友入门并深入学习。真诚无偿分享vx扫描下方二维码即可加上后会一个个给大家发【附赠一节免费的直播讲座技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等欢迎大家~】大模型全套学习资料展示自我们与MoPaaS魔泊云合作以来我们不断打磨课程体系与技术内容在细节上精益求精同时在技术层面也新增了许多前沿且实用的内容力求为大家带来更系统、更实战、更落地的大模型学习体验。希望这份系统、实用的大模型学习路径能够帮助你从零入门进阶到实战真正掌握AI时代的核心技能01教学内容从零到精通完整闭环【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块内容比传统教材更贴近企业实战大量真实项目案例带你亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌02适学人群应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。vx扫描下方二维码即可【附赠一节免费的直播讲座技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等欢迎大家~】本教程比较珍贵仅限大家自行学习不要传播更严禁商用03入门到进阶学习路线图大模型学习路线图整体分为5个大的阶段04视频和书籍PDF合集从0到掌握主流大模型技术视频教程涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向新手必备的大模型学习PDF书单来了全是硬核知识帮你少走弯路不吹牛真有用05行业报告白皮书合集收集70报告与白皮书了解行业最新动态0690份面试题/经验AI大模型岗位面试经验总结谁学技术不是为了赚$呢找个好的岗位很重要07 deepseek部署包技巧大全由于篇幅有限只展示部分资料并且还在持续更新中…真诚无偿分享vx扫描下方二维码即可加上后会一个个给大家发【附赠一节免费的直播讲座技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等欢迎大家~】

相关新闻

【npm】npm的-D选项介绍

【npm】npm的-D选项介绍

-D 是 npm install 命令的常用选项,它的完整形式是 --save-dev,意思是: 主要作用 将包作为开发依赖(devDependencies)保存到 package.json 中 具体解释: 1. 依赖分类 {"dependencies": {"ex…

2026/7/3 0:33:39 阅读更多 →
便携式气象站:气象监测的“移动先锋”

便携式气象站:气象监测的“移动先锋”

在气象监测领域,便携式气象站宛如一位灵活机动的“侦察兵”,以其小巧便携、功能强大的特点,在众多场景中发挥着重要作用。便携式气象站最大的优势在于其便携性。它体积小巧、重量轻盈,可轻松放入背包或携带箱中,无论是…

2026/5/17 2:50:04 阅读更多 →
【课程设计/毕业设计】Python基于深度学习的服装搭配智能推荐系统python基于协同过滤算法的天气穿搭推荐系统【附源码、数据库、万字文档】

【课程设计/毕业设计】Python基于深度学习的服装搭配智能推荐系统python基于协同过滤算法的天气穿搭推荐系统【附源码、数据库、万字文档】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

2026/5/17 2:50:03 阅读更多 →

最新新闻

2026 优质 AI 写小说软件盘点,长篇连载 AI 创作工具完整推荐

2026 优质 AI 写小说软件盘点,长篇连载 AI 创作工具完整推荐

随着人工智能技术持续落地文创领域,AI 辅助写作逐步成为网文作者、传统文学创作者、编剧以及非虚构书籍撰稿人的日常创作方式。当下市场涌现出多款主打 AI 智能写作的工具产品,各类产品在功能侧重、技术架构、服务定价、适配创作题材上分化明显&#xff…

2026/7/5 2:04:31 阅读更多 →
Python async 超时树:每个 await 都要知道自己的时间预算

Python async 超时树:每个 await 都要知道自己的时间预算

Python async 超时树:每个 await 都要知道自己的时间预算 一、深度引言与场景痛点 异步 RAG 或 Agent 服务里,一个请求会经过鉴权、检索、重排、工具调用、模型生成、日志写入。很多代码只在最外层设置总超时,例如 30 秒。问题是,…

2026/7/5 2:02:31 阅读更多 →
AI 推理 KV Cache 淘汰:别让长会话吃掉所有显存

AI 推理 KV Cache 淘汰:别让长会话吃掉所有显存

AI 推理 KV Cache 淘汰:别让长会话吃掉所有显存 一、KV Cache 是吞吐的朋友,也是显存的敌人 自回归模型推理里,KV Cache 可以避免重复计算历史 token,是流式输出性能的基础。但 KV Cache 会随着上下文长度和并发数增长&#xff0c…

2026/7/5 2:02:31 阅读更多 →
Linux groupdel命令详解|用户组删除、主组报错解决、强制删除实战教程

Linux groupdel命令详解|用户组删除、主组报错解决、强制删除实战教程

1. 命令简介groupdel 命令用于从 Linux 系统中删除指定的工作组(用户组)。该命令会修改系统文件 /etc/group 和 /etc/gshadow,移除对应的组记录。需要注意的是,如果待删除的组中仍有用户将其作为主组(primary group&am…

2026/7/5 1:58:29 阅读更多 →
Rust async Drop 难题:资源释放不要藏在未来某个 await 后面

Rust async Drop 难题:资源释放不要藏在未来某个 await 后面

Rust async Drop 难题:资源释放不要藏在未来某个 await 后面 一、Drop 是同步的 Rust 的 Drop trait 是同步执行的,不能直接 await。这在普通资源释放里问题不大,但在异步系统里会变复杂:关闭网络连接、刷盘、通知远端、释放推理会…

2026/7/5 1:56:29 阅读更多 →
Redis Stream 消息队列总结

Redis Stream 消息队列总结

1. Stream 是什么Redis Stream 是 Redis 提供的一种消息队列数据结构,用于保存和传递一系列消息。它的核心特点是:消息有唯一 ID。消息会持久化保存在 Redis 中,不会像 Pub/Sub 一样发送后立刻丢失。支持消费者组。支持消息确认机制。支持查看…

2026/7/5 1:52:27 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻