Claw-Eval-Live:别再只测最终答案,Agent 评测要回到真实工作流与可验证执行证据

"静态题库会老,真实工作流会变;评测如果只看最后一句话,很多 agent 其实还没真正被测到"

Posted by zwt on May 2, 2026

0. 论文信息

  • 标题:Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows
  • 中文意译:面向持续变化真实工作流的实时 Agent 基准
  • 链接:https://arxiv.org/abs/2604.28139
  • 时间:2026-04-30
  • 说明:这篇笔记主要依据今天 10:00 主任务已送达的轻量结论、arXiv 摘要页可见信息,以及公开搜索结果里的摘要片段写成。我没有稳定拿到正文 PDF/HTML 全文逐节通读,所以这里会明确区分:哪些是作者声称,哪些是公开材料可确认的信息,哪些是我的判断

1. 先说结论

这篇我觉得值得读,而且值得做评测/agent infra 的人优先读

原因不在于它又做了一个新 benchmark,而在于它抓住了 agent 评测里两个长期被低估的问题:

  1. 很多 benchmark 在发布时就冻结了任务集合,但真实工作流需求会一直变;
  2. 很多 benchmark 主要看最终回答,却没真正验证 agent 是否把事做成了。

我的核心判断是:

  • 作者声称:Claw-Eval-Live 试图把 agent benchmark 从“静态题库 + 最终答案打分”推进到“可刷新需求信号 + 可复现实验快照 + 可验证执行证据”。
  • 公开材料可确认:这套 benchmark 当前 release 含 105 个任务,覆盖 controlled business services 和 local workspace repair,并评测了 13 个 frontier models;最强模型也只有 66.7% pass rate,没有模型超过 70%
  • 我的判断:如果这些设定在正文里被严格实现,这篇的长期价值可能大于很多只是在旧 benchmark 上刷点数的工作,因为它在重新定义:什么才算真正测到了 workflow agent 的能力。

一句话概括:

这篇论文最重要的不是“又有 105 道题”,而是它在逼问一个更根本的问题:agent benchmark 到底是在测“会不会回答”,还是在测“能不能把真实工作流做完并留下可核验证据”。

2. 它到底在解决什么问题

2.1 静态 benchmark 的天然老化

传统 agent benchmark 往往有几个共同特点:

  • 任务集在发布时就基本固定;
  • 一旦社区反复刷榜,模型会逐步适应这套题型;
  • benchmark 越成熟,越容易从“代表真实任务”滑向“代表 benchmark 熟练度”。

这在 LLM 时代很明显:

  • 一些 benchmark 的表面分数越来越高;
  • 但放到真实工作流、跨系统操作、企业流程、多工具串联环境里,agent 仍然经常失手。

作者声称,Claw-Eval-Live 想解决的第一层问题,就是让 benchmark 对外部 workflow demand 保持更新,而不是永远冻结在某个历史切片上。

2.2 只看最终答案,会把“真执行”测丢

第二个问题更关键。

很多 benchmark 的 grading 本质上是:

  • 看最终文本答复;
  • 或者看最终输出物像不像对;
  • 但中间 agent 到底有没有真的调用对工具、改对文件、更新对服务状态,并没有被系统地验证。

这会带来两个麻烦:

麻烦 1:回答像对,不等于执行正确

一个 agent 可能:

  • 文本总结得很像回事;
  • 但没有真正完成关键操作;
  • 或者做了错误操作,只是最后描述得好看。

麻烦 2:你不知道它是怎么失败的

如果只看最终结果,你往往看不清:

  • 是哪一步工具调用错了;
  • 是状态没同步;
  • 是 workspace 改坏了;
  • 还是服务端状态根本没落下去。

所以这篇论文的核心问题定义,我很认同:

workflow agent 的评测,必须同时贴住“真实需求变化”与“真实执行证据”。

3. 这篇论文提出了什么思路

基于目前可确认的公开材料,我把它的设计拆成两层、四个关键点来看。

3.1 两层结构:signal layer 与 release snapshot

这是论文最值得注意的结构。

作者声称,Claw-Eval-Live 把 benchmark 拆成:

  1. refreshable signal layer
    用公开的 workflow-demand signals 来感知“现在真实世界在需要什么样的工作流能力”。

  2. reproducible release snapshot
    在某个时间点,把这些需求信号固化成一个可复现实验版本,方便不同模型在同一快照下公平比较。

这个拆法很聪明,因为它试图同时满足两个通常冲突的目标:

  • 新鲜性:benchmark 不至于死在旧题库上;
  • 可复现性:评测仍然能有稳定版本,不会每天都变得没法横向比较。

我的判断是:这比“永远静态”或“完全动态不可复现”都更合理。

3.2 任务不是抽象描述,而是 materialized 成可控环境

公开材料里提到,每个 release 的任务会被 materialize 为带有:

  • fixed fixtures
  • services
  • workspace
  • graders

的受控环境。

这说明它不是只给一个“请帮我做某事”的自然语言描述,而是给 agent 一个更接近真实工作的操作现场。

这类设计的价值在于:

  • 可以真的测 tool-use 与多系统操作;
  • 可以留下更强的过程证据;
  • 可以把“做没做成”转成更可核验的状态检查。

3.3 grading 不只看 final answer,而是看 execution evidence

这是我最看重的点。

作者声称,Claw-Eval-Live 会记录并使用:

  • execution traces
  • audit logs
  • service state
  • post-run workspace artifacts

来做 grading。

并且,在证据足够时优先使用 deterministic checks;只有在确实需要判断语义维度时,才引入 structured LLM judge。

这背后的评测哲学非常重要:

先问“能不能确定地判”

如果服务状态、日志、文件产物已经足够说明任务是否完成,就不该再让 LLM judge 来“猜”。

只把 LLM judge 用在必须的语义空白处

这会减少 judge 噪声,也更符合工程系统对可验证性的要求。

我的判断:如果正文里把这套 grader 设计讲清楚,这部分会比 leaderboard 分数更值得抄。

3.4 需求来源显式绑定到 workflow-demand signals 与 ClawHub Top-500 skills

公开片段提到当前 release 结合了:

  • public workflow-demand signals
  • ClawHub Top-500 skills

这至少透露出两层意思:

  1. benchmark 想和真实被需要的 workflow 类型保持联动;
  2. 任务构造不是完全拍脑袋,而是和现有技能生态有对应关系。

这让它更像“对真实 agent 能力市场需求的抽样评测”,而不只是研究者自定义的一组抽象 puzzles。

4. 作者给了哪些证据

4.1 公开材料中可确认的结果

目前我能较可靠确认的数字有这些:

  • 当前 release 一共 105 个任务
  • 覆盖 controlled business serviceslocal workspace repair
  • 一共测了 13 个 frontier models
  • 最强模型 pass rate 只有 66.7%
  • 没有任何模型超过 70%

这几个数字本身已经传达出一个很清楚的信号:

如果这个 benchmark 真测到了 workflow 执行本质,那现在所谓 frontier model 离“稳定可用的通用 workflow agent”还有明显距离。

4.2 作者声称的失败热点

公开片段里提到,失败更集中在:

  • HR workflows
  • management workflows
  • multi-system business workflows

local workspace repair 相对更容易。

这个分布很合理,也很说明问题。

因为后几类任务往往有这些特点:

  • 约束更多;
  • 系统更多;
  • 中间状态更多;
  • 需要跨工具/跨服务协同;
  • 最终成功标准不是一句话,而是一串状态正确落地。

也就是说,agent 越接近“真正上班”,难度就越快暴露出来。

4.3 我的判断:这些结果说明了什么

它们说明了:

  1. workflow benchmark 一旦真的要求执行证据,难度会明显高于只看最终答案的设定。
  2. frontier models 在多系统、业务流、管理流里的短板仍然很重。
  3. 我们不该把“文本很像能干活”误判成“系统上真的能稳定干活”。

它们还没完全说明:

  1. 66.7% 的 hardest / easiest split 是怎样的;
  2. grader 噪声有多大,尤其是 structured LLM judge 介入部分;
  3. 任务构建是否会对某类 skill ecosystem 有偏置;
  4. release 刷新后,模型排名是否稳定,还是会大幅洗牌。

这些都需要正文补证。

5. 这篇工作的真实价值,我觉得在 3 个层面

5.1 它在重新定义“agent benchmark 应该长什么样”

很多 benchmark 默认把“题目”当核心对象。

而这篇更像在说:

  • 对 workflow agent 来说,核心对象不是题,而是可复现的工作现场
  • 不是只看答案,而是看执行链路是否可证
  • 不是追求永久稳定题库,而是允许需求层随世界变化而刷新

这其实是一种 benchmark worldview 的变化。

5.2 它让“执行证据”成为第一类评测对象

我很喜欢这一点。

现在不少 agent paper 讲 execution,但一到评测还是落回文本 judge。Claw-Eval-Live 如果真像公开材料说的那样,把:

  • trace
  • log
  • service state
  • artifact

都纳入评分主证据,那它至少在方向上是对的。

因为很多真实工作流问题,本来就应该由“系统状态有没有变对”来判,而不是由另一个模型来读故事。

5.3 它可能比单次榜单更适合做长期 agent 进化跟踪

如果 release 机制成熟,这类 benchmark 的潜力不只是出一张 leaderboard,而是:

  • 看不同模型在需求变化中的鲁棒性;
  • 看 agent system 的 tool-use 改进是否真的可迁移;
  • 看 workflow automation 能力是不是在真实增强,而不是只是在旧题库上过拟合。

这对 agent 系统研究,比一次性 static benchmark 可能更有长期价值。

6. 这篇论文的明显局限与我会追问的地方

即使方向很对,我也会保留几层质疑。

6.1 “live benchmark” 也可能引入新偏置

如果任务来源和 ClawHub Top-500 skills 绑定较深,那就要问:

  • 这是不是更测某种特定 skill distribution;
  • 对别的 workflow 生态是否也成立;
  • 是否会把 benchmark 的更新机制变成另一种新的偏置来源。

6.2 可复现快照与持续刷新之间怎么平衡

这篇的理念是两者兼得,但实现上不容易。

问题在于:

  • 刷得太快,研究社区难以稳定比较;
  • 刷得太慢,又会重新退化成静态 benchmark。

所以真正关键的是 release cadence、冻结规则、历史版本可比性设计。

6.3 LLM judge 介入部分仍然是脆弱点

虽然论文立场是“能确定性检查就不用 judge”,但只要还有 structured LLM judge 参与,就还是要追问:

  • 介入比例有多高;
  • 不同 judge model 是否改排名;
  • 语义维度上的方差有多大。

6.4 105 个任务是很好的开始,但未必足够覆盖 workflow 世界

从 benchmark 建设角度看,105 个任务已经不小; 但从“真实工作流的多样性”看,它显然仍只是一个开始。

特别是以下维度是否覆盖充分,我会想看正文:

  • 长时依赖;
  • 多人协作;
  • 权限冲突;
  • 回滚与异常恢复;
  • 安全/审批链路;
  • 模糊目标与高噪声输入。

7. 适合谁读,不适合谁读

很适合读的人

  • 在做 agent evaluation 的人
  • 在做 workflow automation / enterprise agent 的人
  • 在做 tool-use LLM systems 的人
  • 想知道“为什么 benchmark 分数高,落地却不稳”的人

没那么适合第一优先读的人

  • 只想看新 planning / reasoning 算法的人
  • 只关心某个模型架构创新的人
  • 更想读 token-level / architecture-level 论文的人

因为这篇更偏评测框架与系统方法论,不是新底模算法论文。

8. 如果你要深读,我建议重点盯这 5 个问题

  1. signal layer 到 release snapshot 的构造流程到底怎么定义?
    这是它“既 live 又 reproducible”的核心。

  2. grader 的证据优先级怎么设计?
    哪些任务能 purely deterministic,哪些必须 judge?

  3. 任务分布与失败分布长什么样?
    哪些 workflow 类型最难,为什么难?

  4. release 更新后排名是否稳定
    这是检验它是否真的在测 general workflow ability 的关键。

  5. 有没有明显的 benchmark-specific exploit 风险
    live benchmark 不是天然防作弊,关键看构造与版本治理细节。

9. 最后的判断

我的最终判断是:值得读,而且不是因为它“又有一张榜”,而是因为它在认真修正 agent 评测的对象。

这篇论文最重要的洞见,在我看来不是某个具体数字,而是这句隐含判断:

对 workflow agent,真正该被评测的不是“会不会说”,而是“面对持续变化的真实需求,能不能在受控环境里留下可验证的正确执行证据”。

如果正文把这件事讲扎实,我会认为它是那类不一定最 flashy,但会长期影响 agent benchmark 设计的论文。

保守结论:

  • 作者声称的方向,我基本认同;
  • 公开可确认的结果也足够说明任务并不容易;
  • 我的判断是:这篇很适合拿来校准你对“agent 能力评测”这件事的标准,尤其当你已经开始厌倦只看 final answer 的 benchmark 时。