从原理到落地:一文读懂检索增强生成RAG核心逻辑详解
RAG (Retrieval-Augmented Generation检索增强生成)是目前大模型LLM落地应用中最核心、最热门的技术方案之一。简单来说RAG 就是给大模型配上了一个“外部知识库”或“搜索引擎”。接下来我会从我们“为什么需要它”、“它是怎么工作的”以及“它的优势”三个维度来详细拆解。一、 为什么要用 RAG虽然 GPT-4、Claude 等大模型很强大但它们有三个致命的短板1. 幻觉问题 (Hallucination)大模型本质上是概率预测机器当它不知道答案时会一本正经地胡说八道。2. 知识滞后 (Knowledge Cutoff)大模型的知识停留在训练结束的那一刻。比如你问它“今天早上的新闻”它无法回答。3. 缺乏私有知识大模型没读过你公司的内部文档、你的私人笔记或未公开的代码库。解决办法有两种微调 (Fine-tuning)像让学生去考研深造这样的做法代价高、更新慢。RAG (检索增强)像给学生考试时发一本《开卷参考资料》让他查完资料再回答。二、 RAG 的工作流程四个核心步骤1. 数据准备 (Indexing)在用户提问之前我们要先处理数据清洗与切块 (Chunking)把长文档如PDF、Word切成一个个小段落比如每段300字。向量化 (Embedding)利用“嵌入模型”把文字转成一串数字向量。这些数字代表了文字的语义。存入向量数据库把这些数字存在专门的数据库如 Pinecone, Milvus, FAISS中。2. 检索 (Retrieval)当用户提一个问题比如“我公司的报销标准是什么”* 系统先把这个问题也转成一串数字向量。* 在向量数据库中进行“语义匹配”找到与这个问题最相关的几个段落。3. 增强 (Augmentation)系统把“用户的问题”和“搜到的相关段落”拼在一起组成一个巨大的提示词Prompt。 提示词模板 “你是一个助手。请根据以下参考资料回答问题 【参考资料公司报销标准是单日餐补50元...】 【用户问题我公司的报销标准是什么】”4. 生成 (Generation) —— 写出回答大模型读完这段带资料的 Prompt 后总结出准确的答案。因为它看到了资料所以不再胡说八道。三、 RAG 的核心组件1. Langchain智能文本分割工具: RecursiveCharacterTextSplitter 是 LangChain 中最常用的文本分割器核心逻辑是递归地按指定分隔符拆分文本直到所有分片长度都符合设定的 chunk_size。它的核心工作流程和特点如下预设分隔符优先级默认按 [\n\n, \n, , ] 的顺序尝试拆分优先用双换行符段落分隔再用单换行符行分隔以此类推保证拆分后的文本语义更完整。递归拆分逻辑如果用当前分隔符拆分后的文本块长度仍超过 chunk_size就用下一级优先级的分隔符继续拆分直到所有文本块都满足长度要求。支持重叠窗口通过 chunk_overlap 参数设置分片间的重叠长度避免因拆分导致上下文断裂提升后续向量检索的准确性。举个例子拆分一篇 2000 字符的财报文本设定 chunk_size500、chunk_overlap50它会先按双换行符拆成几个大段若某段有 600 字符就再按单换行符拆成 500100 两部分最后把 100 字符的片段和下一段拼接保证重叠 50 字符。2.向量数据库 (Vector DB)RAG 的大脑存储语义信息。我们最常用的工具是Milvus它是专为海量向量数据的高效存储、索引与相似度检索设计的工具是AI应用中实现非结构化数据文本、图像、音频等语义匹配的核心组件。一、核心原理1. 向量输入将非结构化数据通过模型如BERT、CLIP转为固定维度的稠密向量。2. 索引优化提供FLAT暴力检索、IVF倒排索引、HNSW图索引等多种索引算法在检索速度与精度间做平衡。3. 相似度查询支持欧氏距离、余弦相似度等多种度量方式快速召回与目标向量最相似的结果集。二、核心优势1. 高性能支持万亿级向量的毫秒级查询单节点可处理百万级向量分布式部署可线性扩容。2. 云原生架构存储与计算分离组件无状态适配Kubernetes支持弹性伸缩与高可用部署。3. 混合查询能力支持向量相似度 标量过滤如时间、标签、权限满足复杂业务的多条件检索需求。4. 生态友好提供Python/Java/Go等多语言SDK无缝集成LangChain、Hugging Face等主流AI框架。3. Embedding 模型翻译官把人类语言转成机器理解的数学向量。Embedding嵌入 是将离散、高维的对象如文本、图像、音频映射为低维、稠密的实数向量的过程这些向量能保留原始对象的语义或特征关联是连接非结构化数据与机器学习/AI模型的核心桥梁。详细的Word embedding讲解请翻阅本公众号之前的文章。核心特点与价值1. 降维与稠密化把原本高维稀疏的表示比如文本的one-hot编码压缩成低维稠密向量大幅降低计算成本。2. 语义保留语义相似的对象对应的Embedding向量在空间中的距离也更近。例如“猫咪”和“小猫”的向量距离会远小于“猫咪”和“汽车”。3. 跨模态兼容通过特定模型如CLIP可以将文本和图像映射到同一向量空间实现“以文搜图”“以图搜文”。常见生成方式• 文本Embedding用预训练模型如BERT、Sentence-BERT、text-embedding-ada-002直接生成句子/段落的向量。• 图像Embedding用CNN模型如ResNet或多模态模型如CLIP提取图像特征向量。• 自监督训练通过对比学习等方式让模型自主学习到更具区分度的Embedding。举个简单的例子:假设我们用一个 3维向量 来表示句子的 embedding向量的三个维度分别代表「动物属性」「体型大小」「情感倾向」数值越接近 1 表示特征越明显• 句子1柯基是可爱的小型犬 → embedding 向量[0.95, 0.3, 0.9]• 句子2小短腿柯基很讨人喜欢 → embedding 向量[0.92, 0.28, 0.91]• 句子3金毛是大型犬 → embedding 向量[0.9, 0.85, 0.6]• 句子4今天天气很好 → embedding 向量[0.05, 0.1, 0.7]embedding之后我们就计算不同语句之间的余弦相似度• 句子1和句子2的相似度 接近 0.98语义几乎一致• 句子1和句子3的相似度 约 0.7同属犬类但体型不同• 句子1和句子4的相似度 仅 0.1完全无关这就是 embedding 的核心作用把文字的语义转化为可计算的向量语义越近向量距离越近。4. LLM (大模型)发声器官负责阅读、理解并组织语言。LLM 是 Large Language Model大语言模型 的缩写指基于海量文本数据训练、具备理解和生成人类语言能力的深度学习模型。它的核心逻辑和特点如下1. 核心原理基于Transformer架构通过自监督学习如预测下一个词从海量语料中学习语言规律、知识和逻辑能实现上下文理解和连贯文本生成。2. 核心能力覆盖文本生成、翻译、摘要、问答、代码编写等多种任务无需针对单一任务重新训练即零样本/少样本学习。3. 典型代表通用类有GPT系列、Claude、文心一言、通义千问开源类有Llama、Falcon、ChatGLM等。4. 局限性存在幻觉生成错误信息、上下文长度限制、对复杂逻辑推理支持有限等问题常需结合外部知识库或工具如LangChainMilvus弥补短板。六、 总结RAG 是大模型从“聊天机器人”进化为“专业助手”的必经之路。它通过“外部知识检索 大模型逻辑推理”**的组合模式有效解决了大模型实时性差、专业领域知识匮乏、容易胡言乱语的难题。目前市面上的企业知识库、AI 搜索如 Perplexity, 秘塔搜索底层全都是 RAG 技术。如何学习AGI大模型作为一名热心肠的互联网老兵我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。因篇幅有限仅展示部分资料需要点击下方链接即可前往获取**一、2025最新大模型学习路线一个明确的学习路线可以帮助新人了解从哪里开始按照什么顺序学习以及需要掌握哪些知识点。大模型领域涉及的知识点非常广泛没有明确的学习路线可能会导致新人感到迷茫不知道应该专注于哪些内容。我们把学习路线分成L1到L4四个阶段一步步带你从入门到进阶从理论到实战。L1级别:AI大模型时代的华丽登场L1阶段我们会去了解大模型的基础知识以及大模型在各个行业的应用和分析学习理解大模型的核心原理关键技术以及大模型应用场景通过理论原理结合多个项目实战从提示工程基础到提示工程进阶掌握Prompt提示工程。L2级别AI大模型RAG应用开发工程L2阶段是我们的AI大模型RAG应用开发工程我们会去学习RAG检索增强生成包括Naive RAG、Advanced-RAG以及RAG性能评估还有GraphRAG在内的多个RAG热门项目的分析。L3级别大模型Agent应用架构进阶实践L3阶段大模型Agent应用架构进阶实现我们会去学习LangChain、 LIamaIndex框架也会学习到AutoGPT、 MetaGPT等多Agent系统打造我们自己的Agent智能体同时还可以学习到包括Coze、Dify在内的可视化工具的使用。L4级别大模型微调与私有化部署L4阶段大模型的微调和私有化部署我们会更加深入的探讨Transformer架构学习大模型的微调技术利用DeepSpeed、Lamam Factory等工具快速进行模型微调并通过Ollama、vLLM等推理部署框架实现模型的快速部署。整个大模型学习路线L1主要是对大模型的理论基础、生态以及提示词他的一个学习掌握而L3 L4更多的是通过项目实战来掌握大模型的应用开发针对以上大模型的学习路线我们也整理了对应的学习视频教程和配套的学习资料。二、大模型经典PDF书籍书籍和学习文档资料是学习大模型过程中必不可少的我们精选了一系列深入探讨大模型技术的书籍和学习文档它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。书籍含电子版PDF三、大模型视频教程对于很多自学或者没有基础的同学来说书籍这些纯文字类的学习教材会觉得比较晦涩难以理解因此我们提供了丰富的大模型视频教程以动态、形象的方式展示技术概念帮助你更快、更轻松地掌握核心知识。四、大模型项目实战学以致用当你的理论知识积累到一定程度就需要通过项目实战在实际操作中检验和巩固你所学到的知识同时为你找工作和职业发展打下坚实的基础。五、大模型面试题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我们将提供精心整理的大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。因篇幅有限仅展示部分资料需要点击下方链接即可前往获取

相关新闻

86_Spring AI 干货笔记之 Chroma 向量存储

86_Spring AI 干货笔记之 Chroma 向量存储

一、Chroma 本节将引导您设置 Chroma VectorStore 来存储文档嵌入并执行相似性搜索。 Chroma 是一个开源的嵌入数据库。它为您提供了存储文档嵌入、内容和元数据的工具,以及搜索这些嵌入(包括元数据过滤)的功能。 二、先决条件 访问 ChromaDB: 与 Chroma Cloud 兼容,或…

2026/7/3 14:40:46 阅读更多 →
【计算机毕业设计案例】基于Hadoop的某篮球队各个球员数据分析系统的设计与实现(程序+文档+讲解+定制)

【计算机毕业设计案例】基于Hadoop的某篮球队各个球员数据分析系统的设计与实现(程序+文档+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

2026/7/3 14:14:45 阅读更多 →
基于STM32F103驱动QMI8658A输出加速度陀螺仪数据

基于STM32F103驱动QMI8658A输出加速度陀螺仪数据

基于STM32F103驱动QMI8658A输出加速度陀螺仪数据 简介QMI8658A和QMI8658C区别QMI8658A引脚定义QMI8658A寄存器表代码驱动接线代码 现象总结 简介 QMI8658A 是上海矽睿(QST)推出的一款高性能 6 轴惯性测量单元(IMU)芯片&#xff0…

2026/7/4 23:27:44 阅读更多 →

最新新闻

LSTM 时间序列预测实战:基于3000期双色球数据,构建7维序列模型

LSTM 时间序列预测实战:基于3000期双色球数据,构建7维序列模型

LSTM时间序列预测实战:基于3000期双色球数据的7维序列建模引言:当深度学习遇见概率游戏每次双色球开奖时,那些在彩票站盯着走势图沉思的身影总让人好奇——是否存在某种数学规律能穿透随机性的迷雾?作为数据科学家,我们…

2026/7/6 0:15:20 阅读更多 →
Cartographer ROS Noetic 仿真建图实战:Gazebo+Rviz 完整流程与 3 个关键配置文件解析

Cartographer ROS Noetic 仿真建图实战:Gazebo+Rviz 完整流程与 3 个关键配置文件解析

Cartographer ROS Noetic 仿真建图实战:GazeboRviz 完整流程与 3 个关键配置文件解析当我们需要在仿真环境中验证SLAM算法时,Cartographer与Gazebo的组合提供了一个理想的测试平台。本文将深入探讨如何在ROS Noetic环境下,通过精心配置三个核…

2026/7/6 0:15:20 阅读更多 →
POSIX 1003.1 标准解析:从 fork/exec 到 72 个系统调用的可移植性实践

POSIX 1003.1 标准解析:从 fork/exec 到 72 个系统调用的可移植性实践

POSIX 1003.1 标准解析:从 fork/exec 到 72 个系统调用的可移植性实践在跨平台软件开发中,操作系统接口的差异一直是工程师面临的主要挑战之一。POSIX(Portable Operating System Interface)标准作为Unix-like系统的通用接口规范&…

2026/7/6 0:15:20 阅读更多 →
位置编码外推实战:从BERT 512到26万token的3种延拓策略

位置编码外推实战:从BERT 512到26万token的3种延拓策略

位置编码外推实战:从BERT 512到26万token的3种延拓策略当处理长文本序列时,BERT等Transformer模型面临一个根本性限制——位置编码的长度约束。传统BERT模型最多只能处理512个token,这严重制约了其在长文档理解、基因组分析等场景的应用潜力。…

2026/7/6 0:11:20 阅读更多 →
如何彻底告别重复点击:AutoClicker鼠标自动化完全指南

如何彻底告别重复点击:AutoClicker鼠标自动化完全指南

如何彻底告别重复点击:AutoClicker鼠标自动化完全指南 【免费下载链接】AutoClicker AutoClicker is a useful simple tool for automating mouse clicks. 项目地址: https://gitcode.com/gh_mirrors/au/AutoClicker 还在为每天重复的鼠标点击任务感到疲惫吗…

2026/7/6 0:11:20 阅读更多 →
DQN 算法实战:CartPole-v0 环境 1000 轮训练实现 200 分满分

DQN 算法实战:CartPole-v0 环境 1000 轮训练实现 200 分满分

DQN算法实战:从零构建CartPole智能体的完整指南1. 环境准备与基础概念在开始构建DQN智能体之前,我们需要先理解几个核心概念。CartPole-v0是OpenAI Gym中的一个经典控制问题,目标是让小车上的杆子保持直立不倒下。这个环境有四个状态变量&…

2026/7/6 0:11:20 阅读更多 →

日新闻

H2 与 MySQL 单元测试兼容性:5 个关键 SQL 语句差异与规避方案

H2 与 MySQL 单元测试兼容性:5 个关键 SQL 语句差异与规避方案

H2与MySQL单元测试兼容性:5个关键SQL语句差异与规避方案1. 单元测试中的数据库兼容性挑战在Java开发领域,单元测试是保证代码质量的重要环节。当应用涉及数据库操作时,测试环境的搭建往往成为开发者的痛点。H2数据库因其轻量级、内存模式和快…

2026/7/6 0:01:17 阅读更多 →
Windows任务栏终极清理指南:用RBTray一键隐藏窗口到系统托盘

Windows任务栏终极清理指南:用RBTray一键隐藏窗口到系统托盘

Windows任务栏终极清理指南:用RBTray一键隐藏窗口到系统托盘 【免费下载链接】rbtray A fork of RBTray from http://sourceforge.net/p/rbtray/code/. 项目地址: https://gitcode.com/gh_mirrors/rb/rbtray 你是否厌倦了Windows任务栏上密密麻麻的图标&…

2026/7/6 0:01:17 阅读更多 →
Visual C++ 运行时库一键安装终极指南:告别DLL缺失烦恼

Visual C++ 运行时库一键安装终极指南:告别DLL缺失烦恼

Visual C 运行时库一键安装终极指南:告别DLL缺失烦恼 【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist 你是否曾经遇到过这样的情况:下载了…

2026/7/6 0:05:19 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻