Atomic Information Flow A Network Flow Model for Tool Attributions in RAG Systems-尧图手机网站定制

Atomic Information Flow: A Network Flow Model for Tool Attributions in RAG SystemsAuthors:James Gao, Josh Zhou, Qi Sun, Ryan Huang, Steven YooDeep-Dive Summary:原子信息流 (Atomic Information Flow)RAG 系统中工具归因的网络流模型James Gao, Josh Zhou, Qi Sun, Ryan Huang, Steven Yoo摘要许多基于工具的检索增强生成 (RAG) 系统缺乏将最终响应精确回溯到特定工具组件的机制——随着系统扩展到复杂的多代理架构这一缺陷变得至关重要。本文提出了原子信息流 (Atomic Information Flow, AIF)这是一种基于图的网络流模型它将工具输出和 LLM 调用分解为原子 (atoms)不可分割、自包含的信息单位。通过将 LLM 编排建模为从工具和 LLM 节点流向响应“超汇” (supersink) 的有向原子流AIF 实现了粒度化的归因指标增强了 AI 的可解释性。受网络流理论中最大流最小割定理的启发我们训练了一个轻量级的 Gemma3 (4B 参数) 语言模型作为上下文压缩器利用 AIF 离线计算的流信号来近似工具原子的“最小割”。我们注意到基础 Gemma3-4B 模型在 HotpotQA 上的关键信息识别准确率仅为54.7 % 54.7\%54.7%仅略优于词法基准 (BM25)。然而在 AIF 信号上进行训练后其准确率提升至82.71 % 82.71\%82.71%提高了 28.01 个百分点同时实现了87.52 % 87.52\%87.52%1.85%的上下文 Token 压缩缩小了与参数量接近其 7 倍的 Gemma3-27B 变体之间的差距。1. 引言RAG 作为将外部数据库数据引入 LLM 生成的框架激发了现代大语言模型强大的工具调用能力。RAG 带来的强大能力也启发了后训练和有趣的多代理编排设计以提高系统优化利用外部检索系统的能力。多工具 RAG 系统通常被建模为一个图其中工具被视为编排路径中的节点用于轨迹级优化。受此启发我们利用图网络流模型来研究 RAG 系统中的信息传播。我们称此模型为原子信息流 (AIF)。在 AIF 中RAG 系统中的查询 (Query)、工具调用、LLM 调用和响应均被定义为节点。边代表节点在有向路径中的序列其中查询是超源 (super-source)响应是超汇 (super-sink)。图 1源自 AIF 的最小割信号在 HotPotQA 上的表现显著优于基础模型和词法基准缩小了与更大模型架构的差距。具体而言我们将自包含的信息片段定义为原子。RAG 系统中的每个工具输出和 LLM 生成都由这些原子组成。在 AIF 中工具输出和 LLM 调用被建模为原子供应节点。查询被建模为超源节点因为它是 RAG 系统的入口而最终生成的响应被建模为超汇节点因为它是系统的终止状态。我们将“流”定义为原子沿 RAG 系统边缘的有向移动。图 2AIF 模型。相同颜色的点表示流经每个 LLM “门”的原子。本文重点关注生成 (Generation) 组件将检索 (Retrieval) 流边留待未来研究。详见第 8.1 节。分解和分配算法见算法 1 和 3。AIF 旨在解决 RAG 系统中的痛点如幻觉事实、证据缺失或工具使用效率低下。它能够回答最终答案中的特定句子受哪些工具输出影响哪些工具可以安全跳过而不改变答案决定答案质量的信息瓶颈在哪里2. 原子信息流模型我们正式定义 AIF 框架中的核心对象见图 2定义 2.1 (图)RAG 系统建模为有向图G ( V , E ) G (V, E)G(V,E)其中V VV是节点集E ⊆ V × V E \subseteq V \times VE⊆V×V是表示因果或顺序依赖关系的有向边集。定义 2.3 (原子)设A \mathcal{A}A为所有可能的信息单位集合。原子是用于归因和流分析的最小、自包含的语义信息单位。对于每个节点v ∈ V v \in Vv∈VA t o m s ( v ) ⊆ A \mathrm{Atoms}(v) \subseteq \mathcal{A}Atoms(v)⊆A表示在该节点产生的原子多重集。定义 2.5 (超源)超源s 0 s_0s0代表用户查询提供初始原子集A t o m s ( s 0 ) A t o m s ( q u e r y ) \mathrm{Atoms}(s_0) \mathrm{Atoms}(\mathrm{query})Atoms(s0)Atoms(query)。它没有入边。定义 2.6 (超汇)超汇t 0 t_0t0代表最终响应它消耗原子且没有出边其自身不产生新原子。定义 2.8 (带供应的流)流f : E → N 0 f: E \to \mathbb{N}_0f:E→N0为每条边分配原子数量。设s ( v ) ∣ A t o m s ( v ) ∣ s(v) |\mathrm{Atoms}(v)|s(v)∣Atoms(v)∣为节点v vv引入的原子数。对于任何非终端节点v ∈ V ∖ { s 0 , t 0 } v \in V \setminus \{s_0, t_0\}v∈V∖{s0,t0}流满足松弛守恒定律∑ ( u , v ) ∈ E f ( u , v ) s ( v ) ≥ ∑ ( v , w ) ∈ E f ( v , w ) \sum_{(u,v)\in E}f(u,v) s(v) \geq \sum_{(v,w)\in E}f(v,w)(u,v)∈E∑f(u,v)s(v)≥(v,w)∈E∑f(v,w)备注 2.9 (主动节点与引导)LLM 节点是主动组件执行放大通过s ( v ) s(v)s(v)和过滤。不等式中的差值代表被 LLM 丢弃的无关信息量。利用最大流最小割对偶性我们训练了一个策略π ( q , T ) \pi(q, T)π(q,T)来近似最优割——即识别信息瓶颈而不是在推理时求解精确的流。3. 相关工作AIF 建立在两个主要研究方向之上事实分解 (Factual Decomposition)将文本分解为最小单位以增强忠实度和可解释性如 FActScore。源归因 (Source Attribution)通过 DeepResearch Bench 和 ALCE 等基准测试将生成内容追溯到来源。AIF 通过追踪整个内部编排图中语义原子的来源和演变扩展了这些方法。4. 方法论该流程包含三个阶段(1) 工具输出的原子分解(2) 原子信号注入(3) 响应原子分配。4.1. 阶段 1原子分解使用模型D DD如 GPT5-Nano将工具输出分解为不可分割且信息完整的原子集合。算法 1工具调用的原子分解1: 输入工具调用T ( t 1 , … , t m ) T (t_1, \dots, t_m)T(t1,…,tm)分解器D ( ⋅ ) D(\cdot)D(⋅)2: 输出映射A : { 1 … m } → L i s t ( A t o m ) A: \{1 \dots m\} \to \mathrm{List}(\mathrm{Atom})A:{1…m}→List(Atom)3: 为每个工具调用应用分解必要时使用 map-reduce。4.2. 阶段 2原子信号注入允许根据源权威性、时间新鲜度或不确定性等辅助信号调节信息流。我们使用语义相关性评分器S ( ⋅ ) S(\cdot)S(⋅)。图 3HotpotQA 工具段落的分解和相关性标注示例。4.3. 阶段 3响应原子分配通过将响应原子映射回其来源工具原子来诱导流边。我们采用全局候选列表以确保匹配过程不受工具顺序的影响。算法 3响应原子分配全局池1: 将所有原子展平为全局列表U f l a t U_{\mathrm{flat}}Uflat。2: 对于每个响应原子r j r_jrj利用匹配函数M MM从U f l a t U_{\mathrm{flat}}Uflat中识别匹配的来源。4.4. 流启发式指标我们定义了一系列指标如表 1 所示未在此处展示完整表格来量化 AIF 结构的各个方面。图 4HotpotQA 的响应分配示例。分配字段匹配附录 D 中的相应索引。5. 实验设置我们在 HotpotQA、MS MarcoV2、Musique 和 Wiki Multihop QA 数据集上进行实验。我们将每个上下文文档视为一次工具调用并使用 GPT4.1 生成响应。通过 LLM-as-a-judge 评估生成的响应将其分为“正确”和“错误”段。6. 结果与分析基准测试归因AIF 在正确回答的段落中表现出更高的归因精准度和召回率其得分与 ALCE 基准相当甚至略高证明了原子分解方法的有效性。人工标注验证人工评估显示分解阶段一致率为94 % 94\%94%归因阶段一致率为92 % 92\%92%证实了 AIF 构建的鲁棒性。7. 通过最小割进行有向信息压缩我们将有向信息压缩作为 AIF 的主要应用模拟最小割问题以减少 Token 使用。定义 7.1 (信息容量与割)工具节点t i t_iti的容量c ( t i ) c(t_i)c(ti)与其对响应贡献相关原子的概率成正比c ( t i ) ∝ P ( t i is utilized ∣ q , T ) c(t_i) \propto \mathbb{P}(t_i \text{ is utilized } | q, T)c(ti)∝P(tiis utilized∣q,T)割( S , S ˉ ) (S, \bar{S})(S,Sˉ)将工具分为保留集S SS和屏蔽集S ˉ \bar{S}Sˉ。定义 7.2 (有向信息压缩策略)压缩策略π ( q , T ) \pi(q, T)π(q,T)旨在通过求解最小割问题来最小化信息损失T ′ π ( q , T ) arg ⁡ max ⁡ T ′ ⊆ T P ( T ′ ∣ q , T ) T \pi(q, T) \arg \max_{T \subseteq T} \mathbb{P}(T \mid q, T)T′π(q,T)argT′⊆TmaxP(T′∣q,T)我们训练了 Gemma3-4B 来预测这一最优划分。结果显示表 3Gemma3-4B-AIF 在大幅降低 Token 数量约87 % 87\%87%的同时在多个数据集上的准确率显著超过了基础 Gemma4B 模型。表 3最小割压缩结果 - 不同压缩器模型的 Token 减少和准确率指标。数据集Token 减少准确率HOTPOTQA全上下文 (Full Context)0%91.63%GEMMA4B85.67%54.7%GEMMA4B-AIF87.52%82.71%WIKI QA全上下文0%89.09%GEMMA4B74.3%44.6%GEMMA4B-AIF65.83%77.90%8. 局限性与未来工作未来扩展扩展到检索阶段查询到工具的边以解释“为什么要检索这些内容”。模型微调训练专门用于原子分割和匹配的轻量级模型以降低成本。强化学习利用 AIF 提供的轨迹级奖励进行 RL 训练进一步优化生成质量。9. 结论本文提出了 AIF 框架通过最小语义单位对 RAG 系统进行信息归因。实验表明AIF 指标能捕捉到传统文档级归因无法察觉的细粒度信号并能有效指导上下文压缩器的训练。我们希望 AIF 能为 RAG 栈的系统级优化提供理论模型。Original Abstract:Many tool-based Retrieval Augmented Generation (RAG) systems lack precise mechanisms for tracing final responses back to specific tool components – a critical gap as systems scale to complex multi-agent architectures. We present \textbf{Atomic Information Flow (AIF)}, a graph-based network flow model that decomposes tool outputs and LLM calls into atoms: indivisible, self-contained units of information. By modeling LLM orchestration as a directed flow of atoms from tool and LLM nodes to a response super-sink, AIF enables granular attribution metrics for AI explainability.Motivated by the max-flow min-cut theorem in network flow theory, we train a lightweight Gemma3 (4B parameter) language model as a context compressor to approximate the minimum cut of tool atoms using flow signals computed offline by AIF. We note that the base Gemma3-4B model struggles to identify critical information with \textbf{54.7%} accuracy on HotpotQA, barely outperforming lexical baselines (BM25). However, post-training on AIF signals boosts accuracy to \textbf{82.71%} (28.01 points) while achieving \textbf{87.52%} (1.85%) context token compression – bridging the gap with the Gemma3-27B variant, a model nearly7 × 7\times7×larger.PDF Link:2602.04912v1部分平台可能图片显示异常请以我的博客内容为准

Atomic Information Flow A Network Flow Model for Tool Attributions in RAG Systems

相关新闻

解析CANN ops-nn中的MatMul算子：大语言模型矩阵运算核心组件深度剖析

【毕设】基于人脸识别的实验室智能门禁系统的设计与实现

微信小程序Python-uniapp 智能包裹配送服务管理系统

最新新闻

ConvNeXt 的 torchvision 版本模型结构的代码实现

一站式解决Windows C++运行时库依赖：VisualCppRedist AIO深度解析

只看 inline 关键字，如何准确判别代码属于 C 还是 C++ 语义？

告别手动对齐！用UvSquares插件3分钟搞定Blender UV网格重塑

MySQL 8.4.10安装（二进制）

第45期 Google三年砸$1000亿建AI基建：Capex全景

日新闻

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

渗透测试入门指南：从零基础到实战环境搭建

周新闻

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

渗透测试入门指南：从零基础到实战环境搭建

月新闻

Atomic Information Flow A Network Flow Model for Tool Attributions in RAG Systems

相关新闻

解析CANN ops-nn中的MatMul算子：大语言模型矩阵运算核心组件深度剖析

【毕设】基于人脸识别的实验室智能门禁系统的设计与实现

微信小程序Python-uniapp 智能包裹配送服务管理系统

最新新闻

ConvNeXt 的 torchvision 版本 模型结构的代码实现

一站式解决Windows C++运行时库依赖：VisualCppRedist AIO深度解析

只看 inline 关键字，如何准确判别代码属于 C 还是 C++ 语义？

告别手动对齐！用UvSquares插件3分钟搞定Blender UV网格重塑

MySQL 8.4.10安装（二进制）

第45期 Google三年砸$1000亿建AI基建：Capex全景

日新闻

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

渗透测试入门指南：从零基础到实战环境搭建

周新闻

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

渗透测试入门指南：从零基础到实战环境搭建

月新闻

ConvNeXt 的 torchvision 版本模型结构的代码实现