0. 结论
今天无推荐。
不是因为近 1 天没有新论文,而是因为按“方法新意 > 证据可信度 > 主线相关性 > 可落地性”的标准筛完后,
没有看到一篇比昨天已写的 OS-Themis 更值得单独占用今天名额的 agent / LLM systems 论文。
我更愿意如实空缺,也不想为了完成日更硬凑一篇边缘相关稿件。
1. 检索范围与约束
- 时间范围:最近 1 天(以 2026-03-20 的 arXiv 新提交为主)
- 主题范围:AI agents、tool use、reasoning、planning、memory、multi-agent、RAG agent、browser/computer use、LLM systems
- 检索源:arXiv recent 列表与摘要页
- 候选上限:最多 6 篇
2. 今日候选(最多 6 篇)
以下是我实际看过并做过一轮筛选的候选:
-
OS-Themis: A Scalable Critic Framework for Generalist GUI Rewards
链接:https://arxiv.org/abs/2603.19191
一句话:把 GUI agent reward judge 拆成 milestone verification + review/judge,重点解决 RL 奖励里的假阳性问题。
备注:质量最高,但已于昨日写入仓库,不再重复推荐。 -
Evaluating Counterfactual Strategic Reasoning in Large Language Models
链接:https://arxiv.org/abs/2603.19167
一句话:用博弈论反事实设定测试 LLM 是否真的在做策略推理,而不只是记模板。
判断:有意思,但更偏 reasoning evaluation,不够贴近 agent / systems 主线。 -
Online Learning and Equilibrium Computation with Ranking Feedback
链接:https://arxiv.org/abs/2603.19221
一句话:研究只给 ranking feedback 时的在线学习与均衡计算,并带一个 LLM routing 例子。
判断:技术上扎实,但主体是在线学习理论,不是 agent paper。 -
Variable Entropy Policy Optimization for Low-Resource Language Foundation Models
链接:https://arxiv.org/abs/2603.19152
一句话:把可验证奖励和变熵策略优化用于低资源语言模型对齐。
判断:偏 low-resource LM / translation,对今日 agent 主题不够集中。 -
Inclusive, Performant, and Efficient Embeddings for a Multilingual World
链接:https://arxiv.org/abs/2603.19223
一句话:新的多语 embedding 系列,覆盖 200+ 语言。
判断:不是 agent / tool-use / reasoning 主线。
3. 为什么今天不推新的一篇?
我今天的判断标准比较硬:
3.1 方法新意
OS-Themis仍然是最突出的,因为它抓的是 GUI agent 的 reward reliability 这个关键瓶颈。- 其他候选里,要么偏 benchmark/evaluation,要么偏理论或语言覆盖,不是 agent 主线方法论文。
3.2 证据可信度
OS-Themis有明确 benchmark(OGRBench)和在线 RL/自训练结果,证据链完整。Counterfactual Strategic Reasoning更像能力诊断,证据方向是“发现缺陷”,不是推进 agent 系统的一步。
3.3 主线相关性
- 今天最接近主线的仍然是 GUI reward / agent evolution。
- 但这篇昨天已经写过,今天如果重复发,信息增量很低。
3.4 可落地性
- 对实际 agent 系统来说,reward critic、trajectory filtering、RL 训练闭环都很落地;
- 其余候选要么偏分析,要么偏理论,不适合占“每日只推 1 篇”的名额。
4. 方法/实验/局限(今日降级版说明)
由于今天结论是“无推荐”,这里不展开完整单篇笔记,而是给出简短结论:
- 作者声称:今天最值得看的候选仍是
OS-Themis,它通过多角色 critic 框架改进 GUI reward 质量。 - 实验观察:其摘要明确报告,在 AndroidWorld 上支持在线 RL 训练可带来 10.3% 提升,在 self-training 轨迹过滤中带来 6.9% 增益。
- 我的判断:如果你昨天没看那篇,仍然值得补;但作为“今天的新推荐”,不该重复占位。
5. 复现清单(简版)
如果后续你想把“今日无推荐”也做成稳定流水线,最少需要:
- 固定时间窗:只看最近 1 天 arXiv
- 先筛主题关键词,再人工复核主线相关性
- 候选控制在 6 篇以内
- 如果最佳候选与前一天重复,允许输出“今天无推荐”
- 仍然把扫描结论落盘到 Git,保证任务稳定送达
6. 我的判断
今天不值得为了日更硬推一篇。
原因有两个:
- 真正贴近 agent / LLM systems 主线、又有足够证据的稿子里,
OS-Themis仍最强,但昨天已写; - 其余候选不是没价值,而是不够像“今天最该读的一篇 agent paper”。
如果你今天还想读一篇,我的实际建议反而是:
- 要么补看昨天的
OS-Themis; - 要么等明天再看是否出现真正更强的新稿。