大模型RAG实战：手把手教你用ThinkDoc搭建智能知识库（含API调用代码）-尧图手机网站定制

本文介绍了新上线的ThinkDoc智能知识库平台及其在RAG应用中的实战用法。文章详细演示了如何创建知识库、通过多种方式上传资料并对比了“深度解析”与“快速解析”两种模式的优势。同时讲解了向量、混合及全文三种检索策略。最后文章提供了Python代码示例展示如何调用API实现文件上传、解析与检索帮助开发者快速集成企业级RAG应用。最近[ThinkDoc智能知识库]上线了。个人与开发者都可以用。对于个人作为知识工作者或专业人士我们可以把 ThinkDoc 作为自己的个人知识库。在上传文档资料之后我们可以通过智能对话、检索分析和专业写作等智能体直接交互提升个人的工作效率。对于开发者我们可以把 ThinkDoc 作为团队或企业的知识库平台。通过 ThinkDoc 丰富的 API 接口调用强大的文档上传、解析、检索能力然后与我们开发的RAG应用集成提升企业级RAG应用的效果。本文我将给大家具体的操作指南。1创建第一个知识库在使用ThinkDoc进行文档解析之前首先需要创建一个知识库步骤如下登录到ThinkDoc平台https://doc.bluedigit.ai选择“知识库”点击“创建知识库”。输入知识库的名称和描述。点击“创建”按钮完成知识库的创建。创建了知识库之后ThinkDoc 支持4种方式向知识库添加资料分别是上传文件、导入文件夹、新建笔记和导入网址。上传文件ThinkDoc支持多种文件格式包括PDF、Word、PPT等支持多个文件批量上传步骤如下在知识库页面点击“上传文件”按钮。选择要上传的文件支持单个文件或多个文件的批量上传。点击“上传”按钮将文件上传到知识库中。导入文件夹ThinkDoc还支持从本地文件夹批量导入文件步骤如下在知识库页面点击“导入文件夹”按钮。选择本地文件夹路径系统会自动扫描文件夹中的所有文件并上传到知识库中。点击“导入”按钮完成文件夹的导入。新建笔记除了上传文件你还可以在知识库中新建笔记。笔记可以包含文本内容支持Markdown格式步骤如下在知识库页面点击“新建笔记”按钮。在文本编辑器中输入或粘贴笔记内容支持Markdown格式可实时预览。点击“保存”按钮将笔记保存到知识库中。导入网址你还可以从网址导入文档。ThinkDoc会自动抓取网页内容并解析步骤如下在知识库页面点击“导入网址”按钮。输入要导入的网址。点击“导入”按钮系统会自动抓取网页内容并上传到知识库中。值得说明的是并不是所有网址都可以成功抓取内容。2解析文档的两种模式ThinkDoc提供了两种解析模式深度解析和快速解析。我们可以在 ThinkDoc 的设置页面选择使用哪一种解析模式。选定后文档解析将默认使用此模式。深度解析深度解析是一种全面的文档分析方式它不仅提取文档的文本内容还保留了文档的完整结构和格式信息。完整的文档结构和格式包括文档的整体布局、章节划分等。表格及其布局不仅提取表格中的数据还保留表格的行、列结构和样式。图片和图表提取文档中的图片和图表并尝试理解它们的内容和上下文。页眉和页脚保留文档的页眉和页脚信息。列表和缩进保留文档中的列表结构和缩进格式。深度解析能提供更全面、更准确的文档解析适合对解析质量要求较高的场景。由于需要调用各种模型进行处理深度解析需要更多的算力、更多的时间来执行。快速解析快速解析是一种专注于快速提取文档基础文本内容的方式主要提取文档的核心文本信息同时尽可能保留文档中原本的格式与图片信息。基础文本内容提取文档中的主要文本。简单段落结构保留基本的段落划分。基础标题提取文档中的标题信息。图片和表格尽可能准确提取表格数据和图像但有可能丢失信息。快速解析专注于提取核心文本内容因此处理速度更快对系统资源的消耗也较低。对于格式简单的文档例如会议纪要、录音文稿等或需要快速处理大量文档的场景快速解析是一个理想的选择。我们在知识库的文件列表中可以看到刚刚上传的文件处于“待解析”状态此时我们点击操作栏的“开始解析”按钮ThinkDoc 将开始解析此文件、分块、向量化后保存在向量数据库中。当解析成功后解析状态也随之改变。这时我们可以点击该文件查看解析结果。如上图所示我们可以看到一个Docx文件解析出 1547 个文本段落、51 个表格和 185 张图片。在这个文件详情页面我们还可以下载原文件、查看解析后的Markdown 格式文档以及自动化提取的元数据包括名称、作者、摘要、关键词等。3在知识库中检索ThinkDoc不仅提供了强大的文档解析功能还集成了智能对话功能能够在知识库中进行检索基于检索到的内容进行智能问答。通过设置不同的检索模式用户可以更精准地获取所需信息。ThinkDoc支持多种检索模式包括向量检索、混合检索和全文检索。向量检索基于向量空间模型通过计算文档和查询向量之间的相似度来检索相关文档。适合处理语义相似性较高的查询。混合检索结合向量检索和关键词检索既能利用向量检索的语义理解能力又能利用关键词检索的精确性。适合复杂的查询场景。全文检索基于关键词的检索方式能够快速查找文档中包含特定关键词的内容。适合精确查找特定词汇或短语的场景。在智能对话、检索分析和专业写作这三个智能体中我们都可以设置检索模式来优化检索和生成效果。例如用户可以在对话设置中选择“向量检索”、“混合检索”或“全文检索”并根据具体需求调整TopK、分数阀值、重排序等参数。4如何使用 API 接口ThinkDoc提供了强大的API接口使得开发者可以轻松地将文档解析和智能对话功能集成到自己的应用中。https://doc.bluedigit.ai/api/redocThinkDoc 的 API 文档地址为https://doc.bluedigit.ai/api/redoc。在开始集成之前建议你仔细阅读 API 文档了解各个接口的功能和参数。API 文档中详细介绍了如何上传文件、解析文档、检索知识库等功能。以下是如何使用相关 API 的示例。获取API Key首先你需要获取一个 API Key。登录到 ThinkDoc 点击左下角进入用户账号页面创建自己的 API Key。你可以创建多个 API Key方便在不同的项目中使用。API接口上传文件我们可以通过用户界面或 API 接口创建一个知识库并获取知识库 ID然后可以调用上传文件的接口将指定路径的文件上传到该知识库中。代码示例如下import requests def upload_file_to_kb(api_key, kb_id, file_path): 上传文件到知识库 Args: api_key: API密钥 kb_id: 知识库ID file_path: 本地文件路径 Returns: dict: 上传结果 url fhttps://doc.bluedigit.ai/api/kb/{kb_id}/files headers { Authorization: fBearer {api_key} } with open(file_path, rb) as f: files { file: (file_path.split(/)[-1], f, application/octet-stream) } response requests.post(url, headersheaders, filesfiles) if response.status_code 200: return response.json() else: print(f上传失败: {response.status_code} - {response.text}) return None # 使用示例 api_key td-your-api-key kb_id your-knowledge-base-id file_path /path/to/your/document.pdf result upload_file_to_kb(api_key, kb_id, file_path) if result: print(f文件上传成功文件ID: {result[uploaded_files][0][id]})API接口文档解析上传文件后我们可以对该文件启动解析任务。代码示例如下def parse_file(api_key, kb_id, file_id): 启动文件解析 Args: api_key: API密钥 kb_id: 知识库ID file_id: 文件ID Returns: dict: 解析任务信息 url fhttps://doc.bluedigit.ai/api/kb/{kb_id}/files/{file_id}/parse headers { Authorization: fBearer {api_key}, Content-Type: application/json } response requests.post(url, headersheaders) if response.status_code 200: return response.json() else: print(f解析启动失败: {response.status_code} - {response.text}) return None # 使用示例 parse_result parse_file(api_key, kb_id, file_123456) if parse_result: job_id parse_result[job_id] print(f解析任务已启动任务ID: {job_id})API接口检索信息然后我们可以对指定的知识库或文件进行检索。代码示例如下def retrieve_content(api_key, query, kb_idsNone, file_idsNone, top_k10, score_threshold0.5): 检索知识库内容 Args: api_key: API密钥 query: 检索查询 kb_ids: 知识库ID列表 file_ids: 文件ID列表 top_k: 返回结果数量 score_threshold: 相关性阈值 Returns: dict: 检索结果 url https://doc.bluedigit.ai/api/retrieve headers { Authorization: fBearer {api_key}, Content-Type: application/json } data { query: query, retrieval_setting: { top_k: top_k, score_threshold: score_threshold, query_type: vector, rerank: False, top_n: 5 } } if kb_ids: data[kb_ids] kb_ids if file_ids: data[file_ids] file_ids response requests.post(url, headersheaders, jsondata) if response.status_code 200: return response.json() else: print(f检索失败: {response.status_code} - {response.text}) return None # 使用示例 # 在知识库中检索 result retrieve_content( api_keyapi_key, query人工智能的发展趋势, kb_ids[kb_123456], top_k5, score_threshold0.7 ) if result: print(f找到 {len(result[records])} 条相关记录:) for record in result[records]: print(f- 文件: {record[file_name]}) print(f 相关性: {record[score]}) print(f 内容: {record[text][:100]}...) print()如上所示基于 ThinkDoc 提供的 API 接口我们可以根据自己的需求将ThinkDoc 的文档解析和融合检索功能集成到自己的 RAG 应用中。4总结下一步ThinkDoc 先进的多模态文档解析与融合检索技术为企业级 RAG 应用系统提供了强大的支持。通过深度解析和快速解析两种模式用户可以根据具体需求选择合适的解析方式从而提高文档处理的效率和质量。同时ThinkDoc的智能对话功能和相关API接口使得开发者可以轻松地将这些功能集成到自己的应用中进一步提升RAG效果。最后我在一线科技企业深耕十二载见证过太多因技术更迭而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包✅AI大模型学习路线图✅Agent行业报告✅100集大模型视频教程✅大模型书籍PDF✅DeepSeek教程✅AI产品经理入门资料完整的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】为什么说现在普通人就业/升职加薪的首选是AI大模型人工智能技术的爆发式增长正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议到全国两会关于AI产业发展的政策聚焦再到招聘会上排起的长队AI的热度已从技术领域渗透到就业市场的每一个角落。智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200%远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。资料包有什么①从入门到精通的全套视频教程⑤⑥包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图还有视频解说全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤ 这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。所有的视频教程由智泊AI老师录制且资料与智泊AI共享相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌构建起前沿课程智能实训精准就业的高效培养体系。课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】**

大模型RAG实战：手把手教你用ThinkDoc搭建智能知识库（含API调用代码）

相关新闻

spacedesk 无法触屏解决办法，软件重装

科研NanoBanana来了！谷歌PaperBanana替你搞定学术插图

实测才敢推！降AI率工具千笔·专业降AI率智能体 VS speedai 继续教育首选

最新新闻

WarcraftHelper：魔兽争霸III终极性能优化与兼容性解决方案

AI安全实战：从红蓝对抗到紫队协同的范式演进与落地实践

2025年AI智能体开发实战：从核心概念到零基础搭建指南

DiffuMeta：基于代数语言与扩散Transformer的3D超材料生成实践指南

Linux服务器应急响应实战：从异常检测到安全加固的完整流程

基于M24C04 EEPROM与TM4C129微控制器的数据存储方案

日新闻

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

渗透测试入门指南：从零基础到实战环境搭建

周新闻

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

渗透测试入门指南：从零基础到实战环境搭建

月新闻

大模型RAG实战：手把手教你用ThinkDoc搭建智能知识库（含API调用代码）

相关新闻

spacedesk 无法触屏解决办法，软件重装

科研NanoBanana来了！谷歌PaperBanana替你搞定学术插图

实测才敢推！降AI率工具 千笔·专业降AI率智能体 VS speedai 继续教育首选

最新新闻

WarcraftHelper：魔兽争霸III终极性能优化与兼容性解决方案

AI安全实战：从红蓝对抗到紫队协同的范式演进与落地实践

2025年AI智能体开发实战：从核心概念到零基础搭建指南

DiffuMeta：基于代数语言与扩散Transformer的3D超材料生成实践指南

Linux服务器应急响应实战：从异常检测到安全加固的完整流程

基于M24C04 EEPROM与TM4C129微控制器的数据存储方案

日新闻

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

渗透测试入门指南：从零基础到实战环境搭建

周新闻

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

渗透测试入门指南：从零基础到实战环境搭建

月新闻

实测才敢推！降AI率工具千笔·专业降AI率智能体 VS speedai 继续教育首选