- 0. 论文信息
- 1. 先说结论
- 2. 它在解决什么问题
- 3. 方法核心
- 4. 实验怎么做
- 5. 我觉得它真正新的地方
- 6. 局限也很明显
- 7. 我怎么看
- 8. 适合谁读
- 9. 推荐度
- 10. 参考链接
0. 论文信息
- 标题:Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents
- arXiv:https://arxiv.org/abs/2601.01885
- PDF:https://arxiv.org/pdf/2601.01885
- 作者:Yi Yu, Liuyi Yao, Yuexiang Xie, Qingquan Tan, Jiaqi Feng, Yaliang Li, Libing Wu
- 时间:2026-01-05,后续修订到 2026-04-30
- 代码:arXiv 页面注明已有 GitHub 代码仓库
1. 先说结论
这篇值得读。
它最重要的地方,不是又提出了一个“更聪明的 memory 模块”,而是把问题定义得更准确:LLM agent 的记忆管理,不该被拆成互相独立的长期记忆和短期记忆外挂,而应该直接进入 agent policy 里一起优化。
如果你关心的是 long-horizon agent、记忆增强、RAG for agents,或者想知道“为什么很多 agent 记忆系统看起来能跑,但一到复杂任务就不稳”,这篇很对路。
一句话概括:
这篇论文在说,真正有用的 agent memory,不是固定规则里的检索和总结,而是能让 agent 自己决定何时写、何时读、何时改、何时删的统一控制系统。
2. 它在解决什么问题
论文一开始就把痛点说得很直接:LLM agent 的上下文窗口有限,长任务里信息会不断累积,单纯靠“把更多内容塞进 prompt”不够。
作者认为现有方法有两个常见问题:
- LTM 和 STM 分开做,经常是 heuristic 或 auxiliary controller;
- 记忆管理不是端到端优化的,很多系统只能在局部看起来合理。
这会带来什么后果?
- 重要信息可能没被存进去;
- 噪声会堆进上下文;
- 记忆检索和任务执行脱节;
- 一次任务里学到的记忆策略,下一次还是要重来。
所以这篇的目标不是做一个更大的 memory bank,而是把记忆操作本身变成 agent 的可学习动作。
3. 方法核心
3.1 把记忆操作做成 tool-based actions
AgeMem 把 memory 操作暴露成工具动作,让 agent 自己决定:
- store
- retrieve
- update
- summarize
- discard
这里最关键的不是“有这些工具”,而是这些工具直接属于 policy 的动作空间。也就是说,记忆不是外包出去的附属系统,而是 agent 决策的一部分。
3.2 统一 LTM + STM
论文把 long-term memory 和 short-term memory 一起纳入统一框架:
- LTM 负责持久保存可复用知识;
- STM 负责当前上下文压缩、筛选和管理。
它不是简单地把两者拼起来,而是试图让 agent 在同一个策略里学会:什么时候该把信息放进长期记忆,什么时候该压缩当前上下文,什么时候该从长期记忆里取回东西。
3.3 三阶段渐进式 RL
作者设计了一个三阶段 progressive RL 流程:
- casual interaction
- distractor injection
- formal QA / integrated reasoning
这个设计的意思很清楚:先学基础记忆操作,再学噪声下的上下文控制,最后才做完整任务推理。
3.4 Step-wise GRPO
这是我觉得方法里最有意思的点。
记忆操作的问题是:奖励通常很稀疏,而且很延迟。你早期做的一个 memory choice,可能到最后任务结束时才知道对不对。
作者用 step-wise GRPO 把终端奖励往前传播,让前面的 memory 决策也能收到学习信号。这个思路是合理的,因为它直接对应了 long-horizon credit assignment 的难题。
4. 实验怎么做
论文在 5 个 long-horizon benchmark 上评估:
- ALFWorld
- SciWorld
- PDDL
- BabyAI
- HotpotQA
对比基线包括:
- LangMem
- A-Mem
- Mem0
- Mem0g
- AgeMem-noRL
基础模型用了:
- Qwen2.5-7B-Instruct
- Qwen3-4B-Instruct
结果
论文给出的主结果很强:
- Qwen2.5-7B-Instruct 上平均 41.96%
- Qwen3-4B-Instruct 上平均 54.31%
- 相比最佳基线平均提升 4.82 和 8.57 个百分点
- 相比 AgeMem-noRL,RL 带来 8.53 和 8.72 个百分点提升
记忆质量方面:
- HotpotQA 上 MQ 达到 0.533 / 0.605
STM token 使用也更省:
- Qwen2.5-7B-Instruct 上 token 平均减少 3.1%
- Qwen3-4B-Instruct 上 token 平均减少 5.1%
这些结果说明它不是只把 memory 做得“更会存”,也让上下文更省。
5. 我觉得它真正新的地方
5.1 不是外挂 memory,而是 agent policy 里的 memory
这点很重要。
很多系统把 memory 当外部知识库,agent 只是会查。AgeMem 更进一步,把 memory 管理动作变成可学习策略的一部分。
这意味着它更接近真实 agent 的工作方式:不是“查不查”的二选一,而是“当前该怎么管记忆”。
5.2 不是只优化答案,而是优化记忆质量
论文不只是看任务完成率,还看存下来的 memory 质量,以及上下文 token 使用。
这比单看 final answer 更像工程系统,因为你会关心:
- 记忆是不是可复用
- 会不会越跑越乱
- 会不会不断膨胀
5.3 三阶段 RL 的工程感很强
它不是把训练直接扔给一个黑盒优化器,而是分阶段推进,让 agent 先学会动作,再学会抗噪,再学会完整推理。
这类设计通常更像真工程,而不是纯 benchmark trick。
6. 局限也很明显
第一,训练和评估还是有明显的 benchmark 约束。
论文用 HotpotQA 做 RL,再外推到其他任务。这个设计有价值,但和真实产品环境仍然不是一回事。
第二,tool set 是固定的。
目前是一个清晰好用的抽象,但未来如果要覆盖更复杂的 agent 记忆,工具粒度可能还需要继续细化。
第三,memory 质量的评估天然难。
论文用了 LLM-based evaluator,这在研究里很常见,但真实场景里仍然要小心“评估器也会漂”。
7. 我怎么看
如果把这篇和很多“记忆外挂”类工作放在一起看,我会把它理解成一个方向信号:
LLM agent 的下一阶段,不只是更会推理,而是更会管理自己的上下文和记忆。
这篇的价值在于它把 memory 从“检索组件”抬成了“策略问题”。
这也和我前面写过的很多 agent 文章连上了:
- long-horizon task 的瓶颈不只是 reasoning
- 很多失败不是答案错,而是过程里记错、漏记、乱记
- 真正的复利来自可积累的上下文管理
所以如果你现在在做 agent 系统,我会把这篇归为值得认真读的那一类。
8. 适合谁读
- 做 agent memory / RAG / long-context 系统的人
- 做多轮任务、长期任务、工作流 agent 的人
- 想把“记忆管理”从规则系统升级到可学习策略的人
- 想理解 RL 在 agent memory 上怎么落地的人
9. 推荐度
推荐读。
如果你只想看一个结论,那就是:
记忆不是 agent 的附属功能,而是 agent 本体的一部分。