Anticipatory Planning for Multimodal AI Agents

论文：Anticipatory Planning for Multimodal AI Agents
arXiv: 2603.16777
作者：Yongyuan Liang, Shijie Zhou, Yu Gu, Hao Tan, Gang Wu, Franck Dernoncourt, Jihyung Kil, Ryan A. Rossi, Ruiyi Zhang
机构：UMD / Ohio State / Adobe Research / SUNY Buffalo
说明：这篇笔记基于 arXiv 页面与 HTML 正文 整理，不是逐图逐附录精读版。

一句话结论

这篇工作的核心价值不在于又做了一个 GUI agent，而在于它把“先看几步，再只执行第一步”这件事做成了可训练的强化学习目标。作者声称这样能让多模态 agent 从 reactive 决策，变成短视野但前瞻性的 anticipatory planner；从结果看，实验观察也确实支持它在 GUI 与 tool-use 两类任务上，比同量级开源基座更稳、更像真正会规划的 agent。我的判断是：这篇更像“agent 训练范式”的论文，而不是单点 benchmark hack，值得关注。

这篇论文在解决什么问题

很多 GUI / computer-use / tool-use agent 看起来会“多步推理”，但训练目标往往还是一步一步做局部最优：

当前看到什么，就决定下一步做什么；
奖励信号偏 step-level；
很少显式约束“后面几步是否连贯、是否可执行、是否朝同一个长程目标推进”。

作者的判断是：这类 agent 本质上还是 reactive 的，所以在长链任务里很容易出现：

早期一步没错，但后面逐渐偏航；
重复点击、重复调工具；
高层计划和底层执行脱节；
局部动作对，整体任务还是完不成。

这篇论文的目标，就是把“anticipatory reasoning / lookahead planning”直接写进训练流程里。

方法：TraceR1 在做什么

论文提出的框架叫 TraceR1。

它的 inference 逻辑很直观：

给定当前观察（截图、历史、指令）；
先预测一个未来多步轨迹；
但真正只执行第一步；
拿到环境反馈后再重新规划下一轮。

也就是一种 plan–act loop：

先对未来几步做 lookahead；
但不把整条计划硬执行到底；
每执行一步，就根据新反馈重规划。

这点很关键：它不是传统那种“先生成完整计划再严格执行”，而是用短期前瞻提升当前动作质量。

1) Stage 1：Trajectory-level RL

第一阶段做的是轨迹级强化学习。

不是只管某一步动作对不对，而是让模型去学习：

未来几步是否全局一致；
动作序列是不是围绕同一个任务目标；
是否存在无意义重复；
长链计划是否有时序上的合理性。

按论文描述，这一阶段的奖励设计强调：

trajectory alignment：预测轨迹和参考轨迹的一致性；
repetition penalty：惩罚重复、刷奖励式动作；
temporal discount：对更远未来的信用分配做衰减，避免训练噪声失控。

2) Stage 2：Grounded Reinforcement Fine-Tuning

只做轨迹层的训练还不够，因为“计划看起来合理”不等于“每一步真能执行”。

所以第二阶段再加一个 grounded RFT：

把预测出的 step instruction 交给冻结的 tool agent / executor；
用真实执行反馈来修正 planner；
奖励不再只是抽象的“计划像不像”，而是看它是否真的可落地。

作者声称，这一阶段能把高层计划和低层执行重新对齐。
我的理解：Stage 1 像是在教模型“想得更长”，Stage 2 像是在教模型“别想得太飘”。

这套方法为什么有意思

我觉得这篇最有意思的点有 3 个。

A. 它强调的是“前瞻性规划”，不是单纯 CoT 变长

很多 agent 工作会把更长的 reasoning trace 当成 planning 提升，但这篇不是只拉长文本链路，而是明确要求模型去预测未来动作轨迹。

也就是说，重点不是“解释更多”，而是：

后面大概会发生什么；
当前动作会不会把后面带偏；
哪些未来分支明显不可执行。

这是更接近 agent planning 的训练目标。

B. 它把 planning 和 grounding 拆成两层

纯 planning 容易虚，纯 grounding 容易短视。
TraceR1 的两阶段训练，本质是在做一个折中：

Stage 1 学全局一致性；
Stage 2 学局部可执行性。

这个结构其实挺像人做复杂任务：

先脑子里过几步；
再按当前反馈修最近一步。

C. 它尝试统一 GUI agent 和一般 tool-use

很多方法只在 computer-use 上成立，或者只在 tool benchmark 上成立。
这篇工作的 ambition 更大：想用一个 anticipatory planning recipe，同时覆盖：

在线 GUI benchmark；
离线 GUI benchmark；
多模态 tool-use / reasoning benchmark。

如果这个训练范式后面被更多团队复用，它的影响力可能会超过单篇 benchmark paper。

实验里最值得看的结果

1. 在线 GUI benchmark：开源同量级里明显变强

论文在 AndroidWorld 和 OSWorld-Verified 上做了在线评测。

其中比较关键的一组结果：

Qwen3-VL-32B-Thinking：OSWorld-Verified 从 35.6 提升到 41.2；
UI-TARS-1.5-7B：OSWorld-Verified 从 27.4 提升到 30.9；
同时在 AndroidWorld 上，作者给出的 TraceR1 版本达到 64.8。

实验观察：作者强调这是相对同规模开源模型的显著提升，并称其达到或接近部分 proprietary planner 的水平。
我的判断：OSWorld 这类长程桌面任务本来就很容易在多步交互里崩掉，所以这里的提升比纯离线 step 指标更有说服力。

2. 离线 GUI benchmark：高层任务规划能力也更稳

在 AndroidControl-High / GUI-Odyssey / Multimodal-Mind2Web 上，论文给出的 TraceR1（UI-TARS-7B + Ours）成绩是：

AndroidControl-High: 75.3
GUI-Odyssey: 88.2
Multimodal-Mind2Web: 65.3

对比一些开源基线：

UI-TARS-7B：72.5 / 87.0 / 63.1
UI-TARS-32B：74.7 / 88.6 / 64.7
GUI-R1-7B：51.7 / 38.8 / -

实验观察：TraceR1 在同量级开源模型里很强，尤其 AndroidControl-High 提升明显。
我的判断：这说明它不只是会“多想一点”，而是真的把高层 instruction 分解成低层动作的稳定性做上去了。

3. GAIA / GTA：不仅是 GUI，有一般工具推理收益

在更一般的 tool-use / multimodal reasoning benchmark 上：

GAIA answer accuracy：TraceR1 40.2，高于 GPT-4o 的 33.4；
相比 Qwen3-VL-8B 的 31.5，提升 +8.7；
在 GTA 上，TraceR1 的结果为：
- AnsAcc: 56.7
- ToolAcc: 65.7
- CodeExec: 87.4

实验观察：作者把这个结果解释为 anticipatory planning 对 tool selection、code execution reliability 也有帮助。
我的判断：这部分结果挺重要，因为它说明“看几步再走一步”的训练目标，可能不是 GUI 独有技巧，而是一种更一般的 agent 训练 bias。

消融实验告诉了我们什么

这篇消融不花哨，但信息量够用。

1. Stage 2 很重要

去掉 grounded RFT 之后，作者报告在 AndroidWorld / OSWorld-Verified / GTA 上平均会掉大约 6%。

作者声称：如果没有执行反馈，planner 容易学出“看起来对、实际上不可执行”的轨迹。
我的判断：这很合理。纯 trajectory reward 容易把 agent 训成“会想不会做”。

2. 预测 horizon 不是越长越好

作者测试了不同 horizon 长度，结论是：

适度 lookahead 会提升效果；
但 T > 10 后性能明显下降。

这点我很认可。因为未来越远，不确定性越大，credit assignment 会越来越脏。
所以真正有效的不是“无限长规划”，而是有限前瞻 + 持续重规划。

3. repetition penalty 和 temporal discount 都有用

去掉重复惩罚或去掉时间折扣，性能都会掉。

作者给出的解释是：

没有 repetition penalty，模型会出现 reward hacking，反复做冗余动作；
没有 temporal discount，远期预测噪声会污染训练。

这说明这篇论文不是光靠“大力出奇迹”，而是 reward design 上确实认真想过 agent planning 的病灶。

我怎么看这篇论文的真实价值

值得肯定的地方

第一，问题定义是对的。
现在很多 agent 论文默认“多步执行失败”是 grounding 不够强，但这篇明确指出：很多失败其实来自没有显式前瞻规划。

第二，方法结构很干净。
两阶段：先学 anticipatory trajectory，再学 grounded executability，逻辑清楚，也容易被后续工作继承。

第三，跨任务类型的一致收益很关键。
GUI 和一般 tool-use 都涨，说明这不是单 benchmark overfit 的味道。

我保留意见的地方

1. 目前还是短视野 anticipatory planning，不是强世界模型。
它能“提前看几步”，但离真正会模拟环境 dynamics 的 planner 还有距离。

2. 执行器是冻结外部 tool agents。
这很实用，但也意味着 planner 的上限部分受 executor 影响；如果 executor 很弱，planner 再会想也可能落不了地。

3. benchmark 仍然偏受控。
虽然已经覆盖 7 个 benchmark，但离真实开放世界 computer use 还有差距。
尤其人在真实电脑上碰到的脏 UI、异常弹窗、账号态、页面漂移，未必能被这些结果完全代表。

4. 论文主打“comparable to proprietary systems”，但离顶级闭源还有差距。
比如 GAIA 上，GPT-5 还是明显更强。
所以更准确的说法是：它把开源 agent planner 往前推了一步，但还没有追平最强闭源通用 agent。

这篇论文最适合谁看

我觉得有三类人值得看：

做 GUI / computer-use agent 的人
可以直接借鉴“predict trajectory, execute first step, re-plan”这套训练和推理思路。
做 tool-use agent / multimodal agent training 的人
这篇给了一个比 step-level SFT / RL 更像 planning 的训练目标。
关心 agent 为什么总在长任务里变笨的人
这篇至少给了一个很具体的答案：不是它不会下一步，而是它没被训练成会提前看几步。

如果我要继续追这条线，我会看什么

后续我会重点追 4 个问题：

这种 anticipatory training 能否迁移到真实在线 web / desktop agent？
planner 和 executor 能否联合训练，而不只是 planner 吃 executor 反馈？
短视野 planning 如何和长期 memory / subgoal decomposition 结合？
如果 benchmark 更开放、更脏，这个收益还剩多少？

最后的判断

我的结论：这篇论文值得读，尤其如果你关心 agent planning。它不是那种“换个 backbone 再刷几个点”的 paper，而是在认真回答一个核心问题：怎样把前瞻性规划变成一个能训练出来的能力。

如果只看一句话版：

TraceR1 的核心贡献，是把“先预测几步未来、再只执行第一步并持续重规划”做成了一个可落地的 RL 训练范式；它未必是终点，但很可能是开源 multimodal agent 从 reactive 走向真正 planning-aware 的一块关键垫脚石。