掌握大模型记忆管理:AgeMem框架助力小白程序员提升AI智能体能力(收藏版)
本文介绍AgeMem一种统一管理长时记忆LTM和短时记忆STM的框架通过工具化记忆操作和渐进式强化学习策略使大语言模型智能体能自主决策记忆行为。实验证明AgeMem在多个长程基准测试中优于基线模型显著提升任务完成率、记忆质量并提高上下文利用效率。Title:《Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents》本文提出Agentic MemoryAgeMem一种将长时记忆LTM和短时记忆STM统一管理的框架通过工具化记忆操作LTM添加 / 更新 / 删除STM检索 / 总结 / 过滤让大语言模型智能体自主决策记忆行为为解决训练难题设计三阶段渐进式强化学习策略先学 LTM 存储、再学 STM 抗干扰、最后协同记忆与推理和分步式 GRPO 优化解决稀疏不连续奖励问题在5 个长程基准测试ALFWorld、SciWorld 等上AgeMem 在 Qwen2.5-7B-Instruct平均 41.96%和 Qwen3-4B-Instruct平均 54.31%基座上均优于所有基线任务完成率相对无记忆模型提升 23.52%-49.59%同时实现更高记忆质量MQ 最高 0.605和更高效上下文利用token 用量减少 3.1%-5.1%验证了统一记忆管理的有效性。详细总结本文由阿里巴巴集团与武汉大学联合提出Agentic MemoryAgeMem旨在解决大语言模型LLM智能体在长程推理中因上下文窗口有限、长时 / 短时记忆分离管理导致的性能瓶颈通过统一记忆框架与强化学习训练实现更高效的记忆管理与任务执行。一、研究背景与核心挑战记忆管理的重要性LLM 智能体的记忆分为长时记忆LTM持久存储用户 / 任务知识和短时记忆STM当前输入上下文二者协同可缓解上下文窗口局限是长程推理的关键。现有方法的缺陷1.STM 优化依赖 RAG、定期总结等启发式规则易遗漏关键信息或引入噪声2.LTM 管理分为触发式固定时机操作和智能体式专用管理器均依赖手工规则或辅助模型适应性差3.二者独立优化、松散耦合导致记忆构建碎片化长程推理性能不佳。三大核心挑战功能异质性协调LTM存储 / 更新 / 删除与 STM检索 / 总结 / 过滤功能不同需协同工作训练范式不匹配LTM/STM 训练策略差异大且记忆操作导致奖励稀疏不连续端到端优化难部署成本约束依赖外部专家模型控制记忆推理与训练成本高。二、核心方法AgeMem 统一记忆框架AgeMem 的核心是将 LTM 和 STM 管理集成到智能体策略中通过工具化操作与渐进式 RL 训练实现自主记忆决策。三、实验设计与结果1实验设置数据集5 个长程基准覆盖具身动作、科学推理、规划、导航、问答等场景其中 HotpotQA 用于 RL 训练。基线与基座4 种主流 LTM 系统LangMem、A-Mem、Mem0、Mem0g 无 RL 变体AgeMem-noRL2 个 LLM 基座Qwen2.5-7B-Instruct、Qwen3-4B-Instruct。评估指标任务完成率ALFWorld/SciWorld/BabyAI 用成功率SRPDDL 用进度率PRHotpotQA 用 LLM-as-a-JudgeJ记忆质量MQLLM 评估存储知识与真实事实的相关性0-1 分上下文效率prompt token 用量。2关键实验结果任务性能领先Qwen2.5-7B平均得分 41.96%超无记忆模型 49.59%超最佳基线Mem04.82 个百分点Qwen3-4B平均得分 54.31%超无记忆模型 23.52%超最佳基线A-Mem8.57 个百分点RL 训练贡献显著AgeMem 相对 AgeMem-noRL 提升 8.53-8.72 个百分点。记忆质量更优Qwen2.5-7BMQ0.533高于所有基线0.364-0.527Qwen3-4BMQ0.605显著高于基线0.430-0.587存储知识与任务相关性更强。上下文效率更高相比 RAG 变体AgeMem-RAGtoken 用量减少 3.1%Qwen2.5、5.1%Qwen3无信息丢失。工具使用更合理RL 训练后LTM 的 ADDQwen2.50.92→1.64、UPDATE0→0.13和 STM 的 FILTER0.02→0.31调用频率显著提升工具使用更协同。四、结论与局限核心结论AgeMem 通过统一 LTM/STM 管理、工具化记忆操作和渐进式 RL 训练在任务性能、记忆质量和上下文效率上均超越现有方法为 LLM 智能体的长程推理提供了有效解决方案。现有局限工具类型固定缺乏更细粒度的记忆控制功能实验仅覆盖 5 类长程任务需扩展更多场景验证泛化性。******------------------------华丽的分割线----------------------******以下是文章正文部分详细内容介绍摘要由于上下文窗口有限大语言模型LLM智能体在长程推理中面临根本性局限因此高效的记忆管理至关重要。现有方法通常将长时记忆LTM和短时记忆STM视为独立组件依赖启发式规则或辅助控制器这限制了模型的适应性和端到端优化能力。本文提出智能体记忆AgeMem这是一种将长时记忆和短时记忆管理直接集成到智能体策略中的统一框架。AgeMem 将记忆操作封装为基于工具的动作使大语言模型智能体能够自主决定存储、检索、更新、总结或丢弃信息的内容与时机。为训练这种统一行为本文设计了三阶段渐进式强化学习策略并提出分步式组相对策略优化GRPO以解决记忆操作带来的稀疏且不连续的奖励问题。在五个长程基准测试上的实验表明AgeMem 在多种大语言模型基座上均持续优于性能强劲的记忆增强基线模型实现了更优的任务性能、更高质量的长时记忆和更高效的上下文利用。1 引言在涉及多步推理和复杂工作流的长程智能体任务中Chang 等人2024大语言模型智能体的效能从根本上受限于其在任意时刻能够处理的信息量 —— 我们将这些信息统称为智能体的记忆Xiong 等人2025Goodyear 等人2025。记忆通常分为两类长时记忆LTM用于持久存储用户或任务相关知识Zhong 等人2024Jiang 等人2024短时记忆STM包含当前输入上下文中的信息Wu 等人2025bGao 等人2025b。高质量的长时记忆支持高效检索累积知识而有效的短时记忆管理能减少冗余并保留关键上下文。二者协同作用可缓解上下文窗口有限的局限因此对提升智能体在复杂推理场景中的性能至关重要。然而现有研究大多将长时记忆和短时记忆视为独立组件。短时记忆通常通过检索增强生成RAG进行增强Pan 等人2025b例如 MainRAGChang 等人2025和 ReSumWu 等人2025a这些方法通过外部检索或定期总结扩展可用上下文。尽管这些方法在部分任务中有效但严重依赖预定义的调度规则或启发式策略可能导致忽略不频繁但关键的细节同时引入不必要的噪声Ma 等人2025Dong 等人2025。相比之下长时记忆管理的发展路径截然不同通常分为基于触发机制Kang 等人2025Wang 和 Chen2025Wang 等人2025cChhikara 等人2025和基于智能体Yan 等人2025Hu 等人2025Xu 等人2025的两种范式。前者在预定义时刻执行固定的记忆操作后者则引入专门的记忆管理器来决定存储内容和存储方式。尽管后者灵活性更高但大多数方法仍依赖手工设计的规则或辅助专家模型限制了适应性并增加了系统复杂度Xiong 等人2025。因此长时记忆和短时记忆通常被视为相互独立且松散耦合的模块。如图 1 所示现有架构主要遵循两种模式a静态短时记忆与基于触发机制的长时记忆b静态短时记忆与基于智能体的长时记忆。在这两种情况下两个记忆系统均独立优化之后通过临时方式组合导致记忆构建碎片化在长程推理任务中表现欠佳。因此实现长时记忆和短时记忆的统一管理仍是一项必要但尚未充分探索的挑战。图 1独立式与统一式记忆管理框架对比左采用静态短时记忆STM与基于触发机制的长时记忆LTM的传统框架中独立式框架在短时记忆保持静态的基础上新增一个记忆管理器以智能体驱动的方式控制长时记忆右本文提出的 AgeMem 框架该框架通过显式的工具化操作对长时记忆和短时记忆进行联合智能管理。尽管如此实现统一记忆管理仍面临三大根本性挑战C1功能异质性协调 —— 长时记忆和短时记忆具有不同但互补的功能长时记忆决定存储、更新或丢弃哪些信息而短时记忆控制从活跃上下文中检索、总结或移除哪些内容Zhang 等人2025b。核心挑战在于设计一种统一机制协同协调二者的交互。C2训练范式不匹配 —— 现有强化学习RL框架对两种记忆类型采用截然不同的训练策略Ma 等人2024。面向长时记忆的训练通常利用交互前可用的会话级信息而面向短时记忆的训练则通常注入干扰信息以模拟长程上下文Sun 等人2024。此外标准强化学习假设轨迹连续且奖励稳定这与记忆操作产生的固有碎片化和不连续体验相冲突Wu 等人2025a使得端到端优化极具挑战性。C3实际部署约束 —— 许多智能体系统依赖辅助专家大语言模型进行记忆控制显著增加了推理成本和训练复杂度。如何在不依赖外部专家模型的情况下将统一记忆管理直接集成到智能体中仍是一个开放问题。为应对这些挑战本文提出智能体记忆AgeMem一种联合管理长时记忆和短时记忆的统一框架如图 1右所示。与将记忆视为外部组件的现有设计不同AgeMem 将两种记忆类型直接集成到智能体的决策过程中。通过统一的基于工具的接口大语言模型可自主调用和执行长时记忆和短时记忆的相关操作。此外本文设计了三阶段渐进式强化学习策略模型首先掌握长时记忆存储能力然后学习短时记忆上下文管理最后在完整任务场景中协调两种记忆。为解决跨训练阶段的碎片化体验问题本文设计了分步式组相对策略优化GRPOShao 等人2024将跨阶段依赖转化为可学习信号从而缓解强化学习中稀疏且不连续奖励带来的挑战。本文在五个长上下文、高推理强度的基准测试上对 AgeMem 进行了评估综合结果表明AgeMem 持续优于性能强劲的基线模型验证了统一记忆管理的有效性。本文的主要贡献如下提出智能体记忆AgeMem一种统一的智能体记忆框架使基于大语言模型的智能体能够自主决定长时记忆和短时记忆的管理时机、内容和方式。设计了三阶段渐进式强化学习策略并配备分步式 GRPO 机制助力统一记忆管理行为的有效端到端学习。在多种模型和长程基准测试上进行了全面评估验证了 AgeMem 在复杂智能体任务中的稳健性和有效性。2 背景与相关工作长时记忆LTM持久化的长时记忆对于在长程场景中运行的大语言模型智能体至关重要Wang 等人2025bLi 等人2025。近期研究探索了多种长时记忆建模的架构设计。LangMemLangChain 团队2025提供了支持多种记忆类型的模块化框架而 A-MemXu 等人2025采用受 zettelkasten卡片盒笔记法启发的设计通过关联结构化知识单元促进记忆整合。Mem0Chhikara 等人2025提出了可扩展的提取 - 更新流水线并将其扩展为支持结构化推理的图结构变体ZepRasmussen 等人2025将记忆表示为时序知识图谱以支持跨会话和时间感知推理。尽管这些方法在信息组织和检索方面表现有效但在很大程度上依赖预定义的记忆结构或启发式更新规则。随着记忆规模增长此类设计通常会面临系统复杂度增加的问题且缺乏基于学习的自适应优先级排序和遗忘策略。相比之下本文的研究旨在学习一种自适应记忆策略使智能体能够根据任务需求和长期效用动态决定存储、更新或遗忘哪些信息。短时记忆STM智能体大语言模型中的短时记忆主要涉及上下文选择和检索Wang 等人2024Jin 等人2024。检索增强生成RAGPan 等人2025bSalama 等人2025Kagaya 等人2024是主流范式通过将检索到的内容注入提示词来扩展可用上下文。尽管该方法有效但无法从根本上防止长程场景中的上下文爆炸且可能引入无关或干扰性信息。为解决这一问题ReSumWu 等人2025a将交互历史定期压缩为紧凑的推理状态使智能体能够突破固定上下文窗口的限制。然而其总结调度仍主要依赖预定义过度压缩可能导致丢失罕见但关键的细节。本文的方法则使智能体能够学习何时以及如何检索、总结或过滤上下文在效率和信息保留之间实现更灵活的平衡。大语言模型的强化学习强化学习已成为提升基于大语言模型的智能体决策和推理能力的有效范式Yao 等人2022Jin 等人2025Qian 等人2025Chaudhari 等人2025。在近期的研究进展中GRPOShao 等人2024通过基于采样轨迹的相对质量优化策略增强了训练稳定性无需显式价值函数。GRPO 及其变体Gilabert 等人2025Wang 等人2025a在复杂推理任务中表现出强劲性能。然而现有基于强化学习的系统通常将记忆视为静态或外部组件难以适应与记忆操作相关的不连续和碎片化轨迹Yan 等人2025Zhang 等人2025a。相比之下本文的研究将强化学习直接集成到记忆管理过程中实现语言生成和记忆操作的统一训练。3 方法本文提出智能体记忆AgeMem一种统一的记忆框架使大语言模型智能体能够以端到端的方式自主管理长时记忆和短时记忆。如图 1右所示AgeMem 通过一组专用工具将记忆管理能力直接集成到智能体中使模型能够通过三阶段渐进式策略学习统一记忆管理的最优策略。3.1 问题定义AgeMem 的统一强化学习形式化在每个时间步 t智能体观察到的状态 st ∈ S 由会话上下文短时记忆Ct、长时记忆库 Mt 和任务说明 T 组成st (Ct, Mt, T)。任务说明 T 包括输入查询 q、上下文信息 Iq以及仅用于训练预期答案 Aq。该形式化使智能体能够基于瞬时上下文和持久化知识进行决策。给定 st智能体从混合动作空间 A 中选择动作 at ∈ A该动作空间包括语言生成和记忆操作。决策由参数化策略 πθ 控制定义为 πθ(at|st) P (at|st; θ)其中 θ 表示大语言模型参数且 at πθ(・|st)。对于轨迹 τ (s1, a1, …, sT, aT)累积奖励定义为其中Ri 表征任务完成度与记忆质量Ppenalty 用于抑制冗余存储、过度工具调用以及无节制的上下文膨胀问题。优化目标为该形式化方法将记忆管理视作智能体策略的有机组成部分以可学习的机制替代了手工设计的启发式规则。三阶段轨迹结构为捕捉长程交互过程并循序渐进地训练记忆能力我们将每条轨迹划分为三个连续阶段τ(τ(1),τ(2),τ(3))轨迹总长度为TT1T2T3。在第一阶段智能体进行随意的交互过程并将有用信息存储至长时记忆中第二阶段引入干扰性或无关信息要求智能体通过选择性保留与压缩的方式管理短时记忆第三阶段提出具体任务该任务的完成需要协同利用保留的上下文信息与前期积累的长时记忆。这一设计的核心要点在于长时记忆Mt 在所有阶段中持续保留使前期习得的知识能够影响后续决策与之相反短时上下文Ct 会在第一、二阶段之间被重置以防止跨阶段的信息泄露。第二阶段前的上下文重置确保智能体无法通过残留的上下文信息完成最终任务从而强制其从长时记忆中进行准确的信息检索同时也为记忆操作的有效训练提供了保障。在每个时间步我们都会收集一个经验元组。其中中间步骤的奖励值rt 通常为 0在轨迹完成后统一分配logπθold(at∣st) 代表旧策略πθold 下的对数概率。该表征方式支持在组相对策略优化GRPOShao 等人2024框架下实现分步信用分配使智能体能够将长期奖励归因于跨阶段的特定记忆决策。通过这种分阶段且连续的轨迹构建方式智能体能够学习到具有时间连贯性、且适配任务需求的记忆策略这对于实现稳健的长程推理至关重要。表 1AgeMem 中用于操作长时记忆LTM与短时记忆STM的记忆管理工具3.2 基于工具接口的记忆管理AgeMem 通过显式的工具接口向大语言模型智能体开放各类记忆相关操作见表 1。智能体可调用 ADD、UPDATE、DELETE 操作对持久化的长时记忆进行修改同时通过 RETRIEVE、SUMMARY、FILTER 操作对短时记忆实现精细化控制。将这些工具纳入智能体的动作空间使得记忆控制从外部的启发式流水线转变为智能体决策过程的内在组成部分。这一设计让智能体能够根据任务结构、交互历史和上下文信息自适应地管理记忆。具体实现细节见附录 A.1。3.3 三阶段渐进式强化学习策略为让智能体学习到统一且稳定的记忆管理行为我们提出了渐进式的三阶段训练策略。对于每个任务实例q∈T智能体生成一条完整轨迹其中K 为独立采样次数每个子轨迹对应一个特定的训练阶段。第一阶段长时记忆构建智能体在随意的会话场景中接触上下文信息Iq本阶段的目标是识别关键信息并将其存储至长时记忆Mt。交互过程中短时上下文Ct 自然演变智能体可在合适的时机调用长时记忆相关工具。形式上该阶段生成的子轨迹为其中每个经验元组et 均遵循 3.1 节的定义。第二阶段干扰环境下的短时记忆控制短时上下文被重置但前期构建的长时记忆Mt 仍保留。随后向智能体呈现语义相关但实际无关或具有误导性的干扰信息本阶段的目标是让智能体通过基于工具的操作如上下文过滤、总结学习主动的短时记忆管理能力从而抑制噪声并保留有用信息。该过程生成的子轨迹为重点训练智能体的上下文过滤与压缩能力。第三阶段集成推理与记忆协同最终智能体接收一个正式查询q该查询的解答既需要准确的推理也需要有效的记忆检索。智能体必须从Mt 中检索相关知识合理管理上下文Ct并生成最终答案。该阶段生成的子轨迹为用于评估智能体端到端协调长时记忆、短时上下文管理与任务求解的能力。三个子轨迹共同构成一条完整轨迹该完整轨迹将用于后续分步式 GRPO 流程中的策略优化。对于一批包含B 个任务的训练集我们将K 次独立采样的所有经验聚合为一个统一的经验集E经验集的总规模为其中Tˉ 为平均轨迹长度。更详细的采样过程见附录 A.3。3.4 面向统一管理的分步式组相对策略优化我们采用分步式的组相对策略优化GRPO变体将长程任务奖励与所有阶段的记忆决策关联起来。对于任务q令Gq{τ1(q),…,τK(q)} 表示并行采样的轨迹组每条轨迹都会产生一个终端奖励我们计算终端时间步的组归一化优势函数其中μGq 和σGq 分别为轨迹组Gq 内奖励的均值和标准差ϵ 用于避免除零错误。随后将该优势值广播至同一条轨迹的所有前期时间步即为轨迹中所有的记忆操作和推理行为包括第一、二阶段的操作分配一致的学习信号。通过这一方式最终的任务结果能够监督每一个中间记忆决策实现跨异构阶段的长程信用分配。之后我们将优势值融入经验集得到遵循 GRPO 的核心思想我们对所有经验的期望目标进行最大化其中重要性比率用于控制新策略下的更新幅度为当前策略πθ 与固定参考策略πref 之间的 KL 散度惩罚项β 为平衡探索与训练稳定性的系数。3.5 奖励函数设计我们设计了一种复合奖励函数同时对下游任务完成表现和记忆管理质量进行评估。轨迹层面的总奖励定义为其中为可调节系数分别对应任务完成、上下文管理和长时记忆管理的奖励值惩罚项Ppenalty 用于惩罚上下文溢出、超出交互轮数限制等违规行为。下文对各组成部分进行概述具体公式见附录 A.2。任务完成奖励Rtask该奖励项是智能体的核心学习信号通过评估智能体是否正确完成任务来赋值。我们利用基于大语言模型的评估器得到一个标量分数Sjudge(Apred,Aq)∈[0,1]若智能体未生成任何答案则对其施加额外惩罚。该奖励项鼓励智能体给出准确、完整的任务解答且作为主导奖励成分确保智能体的行为与任务目标保持一致。上下文管理奖励Rcontext该奖励项用于评估短时记忆的管理表现核心关注智能体对活跃上下文Ct 的控制效果由三个维度的指标构成1压缩效率鼓励智能体高效利用令牌资源2预防性操作对智能体提前进行总结或过滤以避免上下文溢出的行为给予奖励3信息保留若智能体丢失与查询相关的关键内容则对其进行惩罚。每个指标均经过归一化处理使奖励函数能够在上下文管理效率与关键信息保留之间实现平衡。长时记忆管理奖励Rmemory该奖励项用于评估长时记忆的操作效果聚合了三方面的信号1存储质量以被标记为高质量且可复用的存储条目占比衡量2记忆维护对智能体进行有意义的记忆更新或删除操作、缓解记忆老化问题的行为给予奖励3语义相关性利用基于大语言模型的评估器计算检索到的记忆与查询之间的语义相似度得分。这些信号共同激励智能体构建具有选择性、高价值的长时记忆并对其进行长期、合理的维护。惩罚项Ppenalty该惩罚项用于抑制各类不良行为如超出最大对话轮数、触发上下文溢出等。惩罚系数的选取遵循一个原则一旦出现上述违规行为轨迹的最终奖励将被大幅扣除以此督促智能体形成安全、高效的记忆使用策略。4 实验4.1 实验设置数据集为全面评估 AgeMem 的性能我们选取了大语言模型智能体研究领域中五个广泛使用的数据集ALFWorldShridhar 等人2020、SciWorldWang 等人2022、PDDLChang 等人2024、BabyAIChevalier-Boisvert 等人2018和 HotpotQAYang 等人2018。这些数据集涵盖具身动作、游戏化推理和知识密集型问答等场景为模型提供了多样化的评估环境。由于 HotpotQA 数据集同时包含问题与对应的支撑事实可自动为第一阶段提供上下文信息因此我们仅在 HotpotQA 的训练集上通过强化学习对 AgeMem 进行微调随后直接在所有数据集上开展评估。数据集的详细统计信息见附录 C.1。评估指标针对核心的任务完成度指标ALFWorld、SciWorld 和 BabyAI 采用成功率SRPDDL 采用进度率PRHotpotQA 采用基于大语言模型的评估打分J。此外我们还利用大语言模型评估器对知识推理过程中存储的长时记忆质量进行评估该指标记为记忆质量MQ。基于大语言模型的评估提示词见附录 C.2。基线模型与大语言模型基座我们将 AgeMem 与四种代表性的智能体长时记忆系统进行对比LangMemLangChain 团队2025、A-MemXu 等人2025、Mem0Chhikara 等人2025以及 Mem0gMem0 官方提供的图结构变体。为更直观地体现强化学习训练的效果我们还设置了未经过强化学习微调的对照模型 AgeMem-noRL。在针对短时记忆的消融实验中我们将本文设计的短时记忆工具与检索增强生成RAG方法进行对比。实验选用的基础智能体模型为 Qwen2.5-7B-Instruct 和 Qwen3-4B-Instruct更多基线模型的配置细节见附录 C.3。实现细节我们基于 Agentscope 框架Gao 等人2025a构建智能体通过 Trinity 框架Pan 等人2025a对 AgeMem 进行微调。奖励函数中所有奖励项的权重均设置为 1.0未进行人工调优。更多实现细节见附录 C.4。4.2 主要实验结果与基线模型的性能对比表 2 显示AgeMem 在 Qwen2.5-7B-Instruct平均 41.96%和 Qwen3-4B-Instruct平均 54.31%两个基座模型上均取得了最高的平均性能在五个数据集上的表现均优于所有基线模型相较于无记忆机制的模型AgeMem 在两个基座上的性能相对提升分别为 49.59% 和 23.52%。与表现最优的基线模型Mem0 和 A-Mem相比AgeMem 的平均性能分别提升了 4.82 和 8.57 个百分点。强化学习训练为模型带来了显著性能提升相较于 AgeMem-noRLAgeMem 在两个基座上的得分分别提高了 8.53 和 8.72 个百分点这验证了三阶段渐进式强化学习策略的有效性。长时记忆存储质量为评估模型存储的长时记忆质量我们利用 HotpotQA 数据集提供的真实事实通过大语言模型评估器衡量存储记忆与真实事实之间的相关性。图 2 展示了不同基线模型的记忆质量MQ得分AgeMem 在两个模型基座上均实现了最高的记忆质量MQ 得分分别达到 0.533 和 0.605。这表明本文提出的统一记忆管理框架不仅能提升任务完成性能还能促进模型存储高质量、可复用的知识。与基线模型的对比进一步验证AgeMem 基于工具的记忆操作方式能够让模型更有选择性地构建高质量的长时记忆。短时记忆管理的有效性我们通过统计 HotpotQA 数据集上不同配置下的提示词令牌使用量评估短时记忆管理的有效性。图 3 显示与未使用短时记忆工具的变体-RAG相比AgeMem 成功减少了提示词令牌的使用量在 Qwen2.5-7B-Instruct 上AgeMem 平均使用 2117 个令牌而 AgeMem-RAG 为 2186 个令牌使用量减少 3.1%在 Qwen3-4B-Instruct 上这一降幅更为显著AgeMem 仅使用 2191 个令牌而 AgeMem-RAG 为 2310 个减少 5.1%。这些结果表明模型学习到的短时记忆管理工具能够有效控制上下文膨胀在保证任务性能的同时实现令牌资源的更高效利用。工具使用情况分析表 3 报告了 HotpotQA 数据集上模型经强化学习微调前后的工具调用统计数据。强化学习训练大幅提升了长时记忆工具的调用频率尤其是 ADD 和 UPDATE 操作在 Qwen2.5-7B-Instruct 上ADD 操作的平均调用次数从 0.92 增至 1.64UPDATE 操作在训练后首次出现调用次数从接近 0 增至 0.13Qwen3-4B-Instruct 上呈现相似趋势ADD 和 UPDATE 操作的调用频率均有提升。对于短时记忆工具强化学习训练让工具的调用更趋均衡FILTER 操作的调用频率显著上升如 Qwen2.5-7B-Instruct 上从 0.02 增至 0.31体现出智能体主动的上下文控制能力而 RETRIEVE 操作的调用频率则保持相对稳定。整体而言这些规律表明强化学习训练让智能体实现了协调、自适应的记忆管理。详细的案例分析见附录 B。4.3 消融实验长时记忆 - 短时记忆组件的消融分析为验证各组件对模型性能的贡献我们针对长时记忆LTM、短时记忆STM和强化学习RL训练开展了消融实验。图 4 展示了以 Qwen2.5-7B-Instruct 为基座模型时三个代表性数据集上的实验结果Qwen3-4B-Instruct 上的结果见附录 D.1。仅引入长时记忆组件LT时模型性能相较于无记忆基线分别提升 10.6%、14.2% 和 7.4%提升效果显著结合强化学习训练后LT/RL性能进一步提升在 HotpotQA 数据集上的提升尤为明显6.3%证明了基于奖励的优化策略的有效性完整的 AgeMem 系统LT/ST/RL在所有基准数据集上均取得最优结果相较于基线模型的整体性能提升分别为 13.9%、21.7% 和 16.1%。值得注意的是新增短时记忆工具后模型在 SciWorld3.1%和 HotpotQA2.4%数据集上的性能提升最为显著这验证了通过学习得到的上下文管理策略其效果优于静态的 RAG 方法。这些逐步提升的实验结果证实结合端到端强化学习的统一记忆管理是实现智能体最优性能的关键。奖励函数的消融分析为验证多组件奖励函数设计的有效性我们将完整的奖励函数All-Returns与仅包含任务完成奖励Rtask 的简化版本Answer-Only进行对比。图 5 展示了 Qwen2.5-7B-Instruct 在 HotpotQA 数据集上进行 GRPO 训练时的奖励收敛曲线结果显示与仅含任务奖励的变体相比完整奖励函数让模型的收敛速度显著加快最终的奖励值也更高。表 4 的详细数据显示All-Returns 策略取得了更高的大语言模型评估打分0.544 vs 0.509同时记忆质量也显著更优0.533 vs 0.479。值得注意的是尽管 All-Returns 策略的令牌使用量略高2117 vs 2078但模型的整体性能更优这表明额外的上下文操作和记忆管理行为对提升推理质量具有实质性的贡献。Qwen3-4B-Instruct 上呈现相似的实验规律见附录 D.2。5 结论本文提出了智能体记忆框架AgeMem这是一种统一的记忆管理框架能够让大语言模型智能体通过可学习的、基于工具的操作协同控制长时记忆与短时记忆。通过将记忆操作直接融入智能体的策略并利用渐进式强化学习策略对其进行训练AgeMem 以端到端的优化方案替代了传统的启发式记忆处理流水线。在多个多样化的长程基准数据集上的大量实验表明AgeMem 在提升任务完成性能和记忆质量的同时还能实现更高效的上下文利用。这些结果凸显了统一的、以智能体为核心的记忆策略的重要性也为构建具备长程推理能力、可扩展且自适应的大语言模型智能体指明了一个极具前景的研究方向。如何系统的学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。一直在更新更多的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】01.大模型风口已至月薪30K的AI岗正在批量诞生2025年大模型应用呈现爆发式增长根据工信部最新数据国内大模型相关岗位缺口达47万初级工程师平均薪资28K数据来源BOSS直聘报告70%企业存在能用模型不会调优的痛点真实案例某二本机械专业学员通过4个月系统学习成功拿到某AI医疗公司大模型优化岗offer薪资直接翻3倍02.大模型 AI 学习和面试资料1️⃣ 提示词工程把ChatGPT从玩具变成生产工具2️⃣ RAG系统让大模型精准输出行业知识3️⃣ 智能体开发用AutoGPT打造24小时数字员工熬了三个大夜整理的《AI进化工具包》送你✔️ 大厂内部LLM落地手册含58个真实案例✔️ 提示词设计模板库覆盖12大应用场景✔️ 私藏学习路径图0基础到项目实战仅需90天第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关新闻

基于python的白酒数据推荐系统

基于python的白酒数据推荐系统

目录白酒数据推荐系统技术大纲系统概述数据收集与预处理推荐算法选择模型实现(Python示例)系统部署评估与优化扩展方向开发技术路线源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!白酒数据推荐系统技术大纲 系统概…

2026/7/6 2:07:06 阅读更多 →
7个高效AI降重工具,让你的论文快速达标,避免重复率问题。

7个高效AI降重工具,让你的论文快速达标,避免重复率问题。

AI降重工具已成为应对论文查重率问题的有效解决方案,随着学术规范要求不断提高,查重和AIGC检测成为论文审核的关键环节。通过实际测试对比,以下七款AI降重工具表现突出,能够帮助用户高效降低重复率,确保论文顺利通过审…

2026/7/6 2:06:42 阅读更多 →
7种AI降重技术盘点,助力学术论文顺利过关,提升内容质量。

7种AI降重技术盘点,助力学术论文顺利过关,提升内容质量。

还在为论文查重率发愁?随着学术规范日益严格,查重和AIGC检测成为论文通过的硬性门槛。别担心,AI降重工具来拯救你!经过实测对比,我整理了7款表现优异的AI降重工具排名,帮你轻松过关。 �&#x…

2026/5/17 5:47:44 阅读更多 →

最新新闻

Docker run 命令 6 大核心参数实战:-v、-w、-e、-u、--rm、-it 组合解析

Docker run 命令 6 大核心参数实战:-v、-w、-e、-u、--rm、-it 组合解析

Docker Run 命令 6 大核心参数实战指南:-v、-w、-e、-u、--rm、-it 的组合艺术当你在终端输入docker run的那一刻,一个精密的容器化引擎便开始运作。但真正让这个简单的命令变得强大的,是那些看似不起眼的参数。本文将深入探讨六个最常用却常…

2026/7/6 2:05:46 阅读更多 →
3款轻量级骨架提取模型对比:MobilePose vs Lightweight OpenPose vs MoveNet,移动端实测 20+ FPS

3款轻量级骨架提取模型对比:MobilePose vs Lightweight OpenPose vs MoveNet,移动端实测 20+ FPS

3款轻量级骨架提取模型移动端实测:性能、精度与部署全解析在移动端和边缘计算设备上实现实时人体姿态估计一直是计算机视觉领域的难点。随着AI模型轻量化技术的进步,MobilePose、Lightweight OpenPose和MoveNet等模型让20FPS的实时骨架提取成为可能。本文…

2026/7/6 2:05:46 阅读更多 →
mRemoteNG免费远程连接管理器:3天从零到精通的完整教程

mRemoteNG免费远程连接管理器:3天从零到精通的完整教程

mRemoteNG免费远程连接管理器:3天从零到精通的完整教程 【免费下载链接】mRemoteNG mRemoteNG is the next generation of mRemote, open source, tabbed, multi-protocol, remote connections manager. 项目地址: https://gitcode.com/gh_mirrors/mr/mRemoteNG …

2026/7/6 2:03:45 阅读更多 →
抖店体验分怎么提升-4点8分实操方法-抖音电商2026规则落地

抖店体验分怎么提升-4点8分实操方法-抖音电商2026规则落地

抖店体验分怎么提升?提升到4.8全套实操方法|抖音电商2026规则落地 前言 2026抖音电商体验分权重重新划定:商品体验50%、服务体验35%、物流体验15%,4.8分是店铺核心分水岭。低于4.8分,千川流量、商品卡自然流权重、平台…

2026/7/6 2:01:44 阅读更多 →
Haiwell Cloud SCADA 3 与主流 PLC 协议对比:支持 3 类设备驱动的连接实测

Haiwell Cloud SCADA 3 与主流 PLC 协议对比:支持 3 类设备驱动的连接实测

Haiwell Cloud SCADA 3 与主流 PLC 协议深度兼容性实测报告在工业自动化系统集成领域,多品牌PLC设备的互联互通一直是工程师面临的现实挑战。海为科技最新发布的Cloud SCADA 3版本以"内置多种工业设备驱动"为核心卖点,宣称能够无缝对接西门子、…

2026/7/6 1:59:44 阅读更多 →
数字通信同步技术:3种载波同步方法对比与低信噪比场景实战

数字通信同步技术:3种载波同步方法对比与低信噪比场景实战

数字通信同步技术:3种载波同步方法对比与低信噪比场景实战在数字通信系统中,载波同步是实现可靠数据传输的核心技术之一。当信号经过信道传输后,接收端需要精确恢复发送端的载波频率和相位,才能正确解调出原始信息。尤其在低信噪比…

2026/7/6 1:59:44 阅读更多 →

日新闻

H2 与 MySQL 单元测试兼容性:5 个关键 SQL 语句差异与规避方案

H2 与 MySQL 单元测试兼容性:5 个关键 SQL 语句差异与规避方案

H2与MySQL单元测试兼容性:5个关键SQL语句差异与规避方案1. 单元测试中的数据库兼容性挑战在Java开发领域,单元测试是保证代码质量的重要环节。当应用涉及数据库操作时,测试环境的搭建往往成为开发者的痛点。H2数据库因其轻量级、内存模式和快…

2026/7/6 0:01:17 阅读更多 →
Windows任务栏终极清理指南:用RBTray一键隐藏窗口到系统托盘

Windows任务栏终极清理指南:用RBTray一键隐藏窗口到系统托盘

Windows任务栏终极清理指南:用RBTray一键隐藏窗口到系统托盘 【免费下载链接】rbtray A fork of RBTray from http://sourceforge.net/p/rbtray/code/. 项目地址: https://gitcode.com/gh_mirrors/rb/rbtray 你是否厌倦了Windows任务栏上密密麻麻的图标&…

2026/7/6 0:01:17 阅读更多 →
Visual C++ 运行时库一键安装终极指南:告别DLL缺失烦恼

Visual C++ 运行时库一键安装终极指南:告别DLL缺失烦恼

Visual C 运行时库一键安装终极指南:告别DLL缺失烦恼 【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist 你是否曾经遇到过这样的情况:下载了…

2026/7/6 0:05:19 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻