今日无推荐:2026-03-21 agent / LLM arXiv 日检结果

"近 1 天里有相关论文,但没有一篇同时满足新意、主线相关性和不与昨日重复"

Posted by zwt on March 21, 2026

0. 结论

今天无推荐。

不是因为近 1 天没有新论文,而是因为按“方法新意 > 证据可信度 > 主线相关性 > 可落地性”的标准筛完后, 没有看到一篇比昨天已写的 OS-Themis 更值得单独占用今天名额的 agent / LLM systems 论文。

我更愿意如实空缺,也不想为了完成日更硬凑一篇边缘相关稿件。

1. 检索范围与约束

  • 时间范围:最近 1 天(以 2026-03-20 的 arXiv 新提交为主)
  • 主题范围:AI agents、tool use、reasoning、planning、memory、multi-agent、RAG agent、browser/computer use、LLM systems
  • 检索源:arXiv recent 列表与摘要页
  • 候选上限:最多 6 篇

2. 今日候选(最多 6 篇)

以下是我实际看过并做过一轮筛选的候选:

  1. OS-Themis: A Scalable Critic Framework for Generalist GUI Rewards
    链接:https://arxiv.org/abs/2603.19191
    一句话:把 GUI agent reward judge 拆成 milestone verification + review/judge,重点解决 RL 奖励里的假阳性问题。
    备注:质量最高,但已于昨日写入仓库,不再重复推荐。

  2. Evaluating Counterfactual Strategic Reasoning in Large Language Models
    链接:https://arxiv.org/abs/2603.19167
    一句话:用博弈论反事实设定测试 LLM 是否真的在做策略推理,而不只是记模板。
    判断:有意思,但更偏 reasoning evaluation,不够贴近 agent / systems 主线。

  3. Online Learning and Equilibrium Computation with Ranking Feedback
    链接:https://arxiv.org/abs/2603.19221
    一句话:研究只给 ranking feedback 时的在线学习与均衡计算,并带一个 LLM routing 例子。
    判断:技术上扎实,但主体是在线学习理论,不是 agent paper。

  4. Variable Entropy Policy Optimization for Low-Resource Language Foundation Models
    链接:https://arxiv.org/abs/2603.19152
    一句话:把可验证奖励和变熵策略优化用于低资源语言模型对齐。
    判断:偏 low-resource LM / translation,对今日 agent 主题不够集中。

  5. Inclusive, Performant, and Efficient Embeddings for a Multilingual World
    链接:https://arxiv.org/abs/2603.19223
    一句话:新的多语 embedding 系列,覆盖 200+ 语言。
    判断:不是 agent / tool-use / reasoning 主线。

3. 为什么今天不推新的一篇?

我今天的判断标准比较硬:

3.1 方法新意

  • OS-Themis 仍然是最突出的,因为它抓的是 GUI agent 的 reward reliability 这个关键瓶颈。
  • 其他候选里,要么偏 benchmark/evaluation,要么偏理论或语言覆盖,不是 agent 主线方法论文。

3.2 证据可信度

  • OS-Themis 有明确 benchmark(OGRBench)和在线 RL/自训练结果,证据链完整。
  • Counterfactual Strategic Reasoning 更像能力诊断,证据方向是“发现缺陷”,不是推进 agent 系统的一步。

3.3 主线相关性

  • 今天最接近主线的仍然是 GUI reward / agent evolution。
  • 但这篇昨天已经写过,今天如果重复发,信息增量很低。

3.4 可落地性

  • 对实际 agent 系统来说,reward critic、trajectory filtering、RL 训练闭环都很落地;
  • 其余候选要么偏分析,要么偏理论,不适合占“每日只推 1 篇”的名额。

4. 方法/实验/局限(今日降级版说明)

由于今天结论是“无推荐”,这里不展开完整单篇笔记,而是给出简短结论:

  • 作者声称:今天最值得看的候选仍是 OS-Themis,它通过多角色 critic 框架改进 GUI reward 质量。
  • 实验观察:其摘要明确报告,在 AndroidWorld 上支持在线 RL 训练可带来 10.3% 提升,在 self-training 轨迹过滤中带来 6.9% 增益。
  • 我的判断:如果你昨天没看那篇,仍然值得补;但作为“今天的新推荐”,不该重复占位

5. 复现清单(简版)

如果后续你想把“今日无推荐”也做成稳定流水线,最少需要:

  • 固定时间窗:只看最近 1 天 arXiv
  • 先筛主题关键词,再人工复核主线相关性
  • 候选控制在 6 篇以内
  • 如果最佳候选与前一天重复,允许输出“今天无推荐”
  • 仍然把扫描结论落盘到 Git,保证任务稳定送达

6. 我的判断

今天不值得为了日更硬推一篇。

原因有两个:

  1. 真正贴近 agent / LLM systems 主线、又有足够证据的稿子里,OS-Themis 仍最强,但昨天已写;
  2. 其余候选不是没价值,而是不够像“今天最该读的一篇 agent paper”

如果你今天还想读一篇,我的实际建议反而是:

  • 要么补看昨天的 OS-Themis
  • 要么等明天再看是否出现真正更强的新稿。