0. 结论

今天无推荐。

不是因为近 1 天没有新论文，而是因为按“方法新意 > 证据可信度 > 主线相关性 > 可落地性”的标准筛完后， 没有看到一篇比昨天已写的 OS-Themis 更值得单独占用今天名额的 agent / LLM systems 论文。

我更愿意如实空缺，也不想为了完成日更硬凑一篇边缘相关稿件。

1. 检索范围与约束

时间范围：最近 1 天（以 2026-03-20 的 arXiv 新提交为主）
主题范围：AI agents、tool use、reasoning、planning、memory、multi-agent、RAG agent、browser/computer use、LLM systems
检索源：arXiv recent 列表与摘要页
候选上限：最多 6 篇

以下是我实际看过并做过一轮筛选的候选：

OS-Themis: A Scalable Critic Framework for Generalist GUI Rewards
链接：https://arxiv.org/abs/2603.19191
一句话：把 GUI agent reward judge 拆成 milestone verification + review/judge，重点解决 RL 奖励里的假阳性问题。
备注：质量最高，但已于昨日写入仓库，不再重复推荐。
Evaluating Counterfactual Strategic Reasoning in Large Language Models
链接：https://arxiv.org/abs/2603.19167
一句话：用博弈论反事实设定测试 LLM 是否真的在做策略推理，而不只是记模板。
判断：有意思，但更偏 reasoning evaluation，不够贴近 agent / systems 主线。
Online Learning and Equilibrium Computation with Ranking Feedback
链接：https://arxiv.org/abs/2603.19221
一句话：研究只给 ranking feedback 时的在线学习与均衡计算，并带一个 LLM routing 例子。
判断：技术上扎实，但主体是在线学习理论，不是 agent paper。
Variable Entropy Policy Optimization for Low-Resource Language Foundation Models
链接：https://arxiv.org/abs/2603.19152
一句话：把可验证奖励和变熵策略优化用于低资源语言模型对齐。
判断：偏 low-resource LM / translation，对今日 agent 主题不够集中。
Inclusive, Performant, and Efficient Embeddings for a Multilingual World
链接：https://arxiv.org/abs/2603.19223
一句话：新的多语 embedding 系列，覆盖 200+ 语言。
判断：不是 agent / tool-use / reasoning 主线。

我今天的判断标准比较硬：

由于今天结论是“无推荐”，这里不展开完整单篇笔记，而是给出简短结论：

作者声称：今天最值得看的候选仍是 OS-Themis，它通过多角色 critic 框架改进 GUI reward 质量。
实验观察：其摘要明确报告，在 AndroidWorld 上支持在线 RL 训练可带来 10.3% 提升，在 self-training 轨迹过滤中带来 6.9% 增益。
我的判断：如果你昨天没看那篇，仍然值得补；但作为“今天的新推荐”，不该重复占位。

如果后续你想把“今日无推荐”也做成稳定流水线，最少需要：

今天不值得为了日更硬推一篇。

原因有两个：

如果你今天还想读一篇，我的实际建议反而是：