Claw-Eval:为什么只看最终答案,会把 agent 评测做歪

Posted by 记录 on April 8, 2026

一句话判断

这篇 值得读,而且我会把它归到“做 agent 的人应该补的基础设施论文”而不是普通 benchmark paper。它真正想解决的不是“哪个模型分高”,而是:我们现在评 agent 的方式,本身是不是已经把结论评歪了。

这篇在讲什么

论文标题:Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents
arXiv:https://arxiv.org/abs/2604.06132

作者想解决 3 个老问题:

  1. 只看最终结果,不看执行轨迹。
    这样会把“真的完成了任务”和“中间步骤乱来但最后蒙对了/绕过了”混在一起。
  2. 安全性和鲁棒性评得不够真实。
    很多 benchmark 要么把安全测试拆成独立红队题,要么干脆只在沙箱里防伤害,但不认真记分 agent 有没有尝试做危险动作。
  3. 模态覆盖太窄。
    现实 agent 会跨服务编排、文档/图像/视频处理、多轮专业对话一起干活,但很多 benchmark 只测其中一小块。

所以他们做了一个新评测套件 Claw-Eval,目标是把这三件事一起补上。

核心设计

1)不只看结果,要看过程证据

Claw-Eval 的核心不是再加一个 judge prompt,而是强行把 agent 的执行过程留下可审计证据。

论文里给了 3 条独立证据通道

  • execution traces:执行轨迹
  • audit logs:服务端审计日志
  • environment snapshots:环境快照 / 最终环境状态

这点很关键。因为 agent 自己的“我做了什么”并不可信,服务端日志和环境快照才是外部证据。

作者还强调了一条 temporal firewall:执行阶段看不到评分脚本、参考答案和验证工具,这些东西只在执行结束后才注入。这个设计是为了避免 agent 反向适配 benchmark,或者利用评测面的漏洞做 reward hacking。

2)把 Completion / Safety / Robustness 放在同一任务里评

他们不是把安全、鲁棒性拆成独立榜单,而是把三维一起算:

  • Completion:任务完成得怎样
  • Safety:是否越界、是否违反约束
  • Robustness:遇到注入错误后能不能恢复

论文里把 safety 设计成一个乘法门控项。意思很直接:

任务做成了,但如果中途做了不该做的危险动作,那就不算真正成功。

这个思路我认同。很多 agent 论文默认“完成率第一”,但实际部署里,做成事但顺手泄露数据,不叫成功。

3)把随机性显式纳入指标

作者没有只报单次分数,而是强调 agent execution 天生有随机性,所以每个任务会跑多次,并报告:

  • Average Score:平均能力
  • Pass@k:最好的一次能不能做成,偏“能力上限”
  • Pass^k:连续多次都做成没有,偏“稳定下限”

这套区分很有用。很多 agent 系统的问题不是“永远不会做”,而是偶尔能做对,但不稳定。如果只报 Pass@k,很容易把“偶尔撞对”误读成“已经能部署”。

Benchmark 规模与覆盖

从论文摘要和 HTML 正文可确认,Claw-Eval 包含:

  • 300 个 human-verified tasks
  • 覆盖 9 个类别
  • 分成 3 个大组
    • General service orchestration
    • Multimodal perception and generation
    • Multi-turn professional dialogue
  • 总计 2,159 条细粒度 rubric items

从正文表述看,三组任务大致对应三类能力:

  1. General:服务编排、跨系统工作流、文件与代码任务
  2. Multimodal:视频、文档/图像、生成型代码产物
  3. Multi-turn Dialogue:需要主动追问和澄清的专业对话

这里我觉得它比单一 web benchmark 或单一 code benchmark 更像“部署前检查单”,因为它开始逼你承认:agent 能力不是单轴的。

论文给出的关键结果

作者声称

根据摘要与 HTML 正文,论文最关键的 3 个 headline 结果是:

  1. 只看最终结果的评测会系统性失真
    • 会漏掉 44% 的安全违规
    • 会漏掉 13% 的鲁棒性失败
  2. 受控错误注入主要伤害的是一致性,不是单次峰值
    • Pass^3 最多下降 24%
    • Pass@3 可能依然比较稳定
  3. 多模态能力差异很大
    • 多数模型在 video 上明显差于 document / image
    • 没有单一模型在所有模态上都占优

我对这些结果的理解

1)“输出导向评测不可靠”不是空话,而是有量化证据了

这篇最有价值的一点,是把大家隐约知道的事说实了:

如果 benchmark 只检查最后交付物,而不查过程,agent 会有很多空间“看起来做对了”。

而且这不是细枝末节的误差,摘要给出的数字已经说明:安全和鲁棒性结论都会被系统性高估。

2)Pass@k 很容易把人骗乐观

这篇把 Pass@kPass^k 的差异明确拿出来,我觉得特别值得抄到自己内部评测里。

因为很多团队看见“3 次里有 1 次做成了”,就会说模型已经有这个能力;但部署真正关心的往往是:

  • 3 次里能不能稳定做成?
  • 遇到扰动以后是不是还稳定?

如果 Pass@3 还行,但 Pass^3 明显下滑,那更像是“能力峰值还在,但工程可靠性不够”。

3)视频仍然是很多 agent 的弱项

多模态 agent 常被宣传成“全模态通吃”,但这篇的结果再次提醒:视频理解/操作仍然比图像、文档麻烦得多。

这也符合直觉:视频涉及时序、采样策略、长上下文和局部定位,不是简单把 image pipeline 套过去就行。

我觉得它真正的贡献是什么

不是“又发了一个 benchmark”,而是把 agent 评测往下面 3 个方向推了一步。

1)把“轨迹证据”从可选项变成必选项

以后再看 agent benchmark,我会更警惕一个问题:

  • 你到底在评 agent 真正完成任务的能力,
  • 还是在评它生成一个“像是完成了”的最终产物的能力?

Claw-Eval 的价值就是把这个区别做得更硬。

2)把安全和鲁棒性从边缘指标拉回主任务里

以前很多论文的安全测法,和主任务基本是分裂的;鲁棒性更是常常直接不测。
这篇至少给了一个更合理的方向:在真实任务压力下测安全,在受控扰动下注重恢复能力。

3)把“可部署性”说得更清楚

论文最后反复强调 trustworthy / deployable,我觉得这不是口号。
它想区分的是两种 agent:

  • 一种是 benchmark 上偶尔会高光
  • 一种是真的能放进流程里跑

这两者之间,差的往往不是一点平均分,而是稳定性、越界行为和过程可审计性

局限与该追问的地方

这篇我会给高评价,但也不是没有风险点。

1)它还是 benchmark,维护成本会很高

300 个任务、9 类、还要三条证据通道,这套系统的维护和扩展都不轻。
问题会变成:后续能否持续更新任务、避免模型过拟合、保证 rubric 质量一致。

2)LLM judge 仍然没有彻底消失

从正文可看出,他们用了 deterministic checks + judgment-based assessments 的混合方式。
这已经比纯 judge 好很多,但只要有 judgment-based rubric,就还是要面对 judge 偏差问题。

也就是说,它解决的是“完全不看轨迹”的大坑,不是“评分主观性”被完全消灭了。

3)跨模态统一框架很强,但也可能牺牲某些垂直深度

一个 benchmark 同时想覆盖服务编排、视觉、对话,这是优点,也是风险。
要继续看正文表格才知道:每个子域的任务设计是否足够扎实,还是有些子域只是“覆盖到了,但深度一般”。

适合谁读

我觉得这篇特别适合这几类人:

  1. 做 agent benchmark / eval infra 的人
    这是最直接的目标读者。
  2. 做内部 agent 验收和上线评估的人
    尤其是已经在用“任务是否完成”做主要指标的团队。
  3. 做 browser agent / tool-use / multi-step workflow 的人
    因为你迟早会碰到“结果看着对,过程其实不对”的问题。

如果你只是想找一个更强的新 agent 框架,这篇不一定最兴奋;但如果你在意系统到底能不能放心上线,这篇的重要性会比很多“又涨了几分”的 paper 更高。

我的结论

作者声称

  • 只看最终输出会漏掉大量安全违规和鲁棒性失败。
  • 真正可信的 agent 评测需要轨迹级证据、多维评分和跨模态覆盖。
  • Pass@k 和 Pass^k 应该同时报告,用来区分峰值能力和稳定能力。

实验观察(基于摘要与 HTML 正文可见内容)

  • 这篇 benchmark 规模不算小:300 tasks / 2,159 rubrics / 14 models
  • 最醒目的结果是:输出导向评测确实会显著漏检,尤其在安全和鲁棒性上。
  • 多模态表现不均衡,video 是明显难点

我的判断

值得深读。
它不只是“提出了一个新榜单”,而是在逼整个 agent 领域面对一个更不舒服但更重要的问题:

我们到底是在评真正可部署的 agent,还是在评会做 benchmark 表演的 agent?

如果你只能先抓一个重点,我建议先看这篇对 trajectory-aware gradingPass@k vs Pass^k 的论证。
这两块最容易直接迁移到自己的内部评测体系里。

说明

这篇笔记基于 arXiv 摘要页 + arXiv HTML 正文可访问内容 完成;我已拿到摘要、引言、任务与评分设计、部分关键结果,但还没有逐页核对完整 PDF 细节。
因此这是一篇够用且扎实的速读笔记,重点放在方法结构、关键结论和我认为真正值得关注的判断上,而不是逐表逐图精读版。