一句话判断

这篇 值得读，而且我会把它归到“做 agent 的人应该补的基础设施论文”而不是普通 benchmark paper。它真正想解决的不是“哪个模型分高”，而是：我们现在评 agent 的方式，本身是不是已经把结论评歪了。

这篇在讲什么

论文标题：Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents
arXiv：https://arxiv.org/abs/2604.06132

作者想解决 3 个老问题：

只看最终结果，不看执行轨迹。
这样会把“真的完成了任务”和“中间步骤乱来但最后蒙对了/绕过了”混在一起。
安全性和鲁棒性评得不够真实。
很多 benchmark 要么把安全测试拆成独立红队题，要么干脆只在沙箱里防伤害，但不认真记分 agent 有没有尝试做危险动作。
模态覆盖太窄。
现实 agent 会跨服务编排、文档/图像/视频处理、多轮专业对话一起干活，但很多 benchmark 只测其中一小块。

所以他们做了一个新评测套件 Claw-Eval，目标是把这三件事一起补上。

核心设计

1）不只看结果，要看过程证据

Claw-Eval 的核心不是再加一个 judge prompt，而是强行把 agent 的执行过程留下可审计证据。

论文里给了 3 条独立证据通道：

execution traces：执行轨迹
audit logs：服务端审计日志
environment snapshots：环境快照 / 最终环境状态

这点很关键。因为 agent 自己的“我做了什么”并不可信，服务端日志和环境快照才是外部证据。

作者还强调了一条 temporal firewall：执行阶段看不到评分脚本、参考答案和验证工具，这些东西只在执行结束后才注入。这个设计是为了避免 agent 反向适配 benchmark，或者利用评测面的漏洞做 reward hacking。

2）把 Completion / Safety / Robustness 放在同一任务里评

他们不是把安全、鲁棒性拆成独立榜单，而是把三维一起算：

Completion：任务完成得怎样
Safety：是否越界、是否违反约束
Robustness：遇到注入错误后能不能恢复

论文里把 safety 设计成一个乘法门控项。意思很直接：

任务做成了，但如果中途做了不该做的危险动作，那就不算真正成功。

这个思路我认同。很多 agent 论文默认“完成率第一”，但实际部署里，做成事但顺手泄露数据，不叫成功。

3）把随机性显式纳入指标

作者没有只报单次分数，而是强调 agent execution 天生有随机性，所以每个任务会跑多次，并报告：

Average Score：平均能力
Pass@k：最好的一次能不能做成，偏“能力上限”
Pass^k：连续多次都做成没有，偏“稳定下限”

这套区分很有用。很多 agent 系统的问题不是“永远不会做”，而是偶尔能做对，但不稳定。如果只报 Pass@k，很容易把“偶尔撞对”误读成“已经能部署”。

Benchmark 规模与覆盖

从论文摘要和 HTML 正文可确认，Claw-Eval 包含：

300 个 human-verified tasks
覆盖 9 个类别
分成 3 个大组：
- General service orchestration
- Multimodal perception and generation
- Multi-turn professional dialogue
总计 2,159 条细粒度 rubric items

从正文表述看，三组任务大致对应三类能力：

General：服务编排、跨系统工作流、文件与代码任务
Multimodal：视频、文档/图像、生成型代码产物
Multi-turn Dialogue：需要主动追问和澄清的专业对话

这里我觉得它比单一 web benchmark 或单一 code benchmark 更像“部署前检查单”，因为它开始逼你承认：agent 能力不是单轴的。

论文给出的关键结果

作者声称

根据摘要与 HTML 正文，论文最关键的 3 个 headline 结果是：

只看最终结果的评测会系统性失真：
- 会漏掉 44% 的安全违规
- 会漏掉 13% 的鲁棒性失败
受控错误注入主要伤害的是一致性，不是单次峰值：
- Pass^3 最多下降 24%
- 但 Pass@3 可能依然比较稳定
多模态能力差异很大：
- 多数模型在 video 上明显差于 document / image
- 没有单一模型在所有模态上都占优

我对这些结果的理解

1）“输出导向评测不可靠”不是空话，而是有量化证据了

这篇最有价值的一点，是把大家隐约知道的事说实了：

如果 benchmark 只检查最后交付物，而不查过程，agent 会有很多空间“看起来做对了”。

而且这不是细枝末节的误差，摘要给出的数字已经说明：安全和鲁棒性结论都会被系统性高估。

2）Pass@k 很容易把人骗乐观

这篇把 Pass@k 和 Pass^k 的差异明确拿出来，我觉得特别值得抄到自己内部评测里。

因为很多团队看见“3 次里有 1 次做成了”，就会说模型已经有这个能力；但部署真正关心的往往是：

3 次里能不能稳定做成？
遇到扰动以后是不是还稳定？

如果 Pass@3 还行，但 Pass^3 明显下滑，那更像是“能力峰值还在，但工程可靠性不够”。

3）视频仍然是很多 agent 的弱项

多模态 agent 常被宣传成“全模态通吃”，但这篇的结果再次提醒：视频理解/操作仍然比图像、文档麻烦得多。

这也符合直觉：视频涉及时序、采样策略、长上下文和局部定位，不是简单把 image pipeline 套过去就行。

我觉得它真正的贡献是什么

不是“又发了一个 benchmark”，而是把 agent 评测往下面 3 个方向推了一步。

1）把“轨迹证据”从可选项变成必选项

以后再看 agent benchmark，我会更警惕一个问题：

你到底在评 agent 真正完成任务的能力，
还是在评它生成一个“像是完成了”的最终产物的能力？

Claw-Eval 的价值就是把这个区别做得更硬。

2）把安全和鲁棒性从边缘指标拉回主任务里

以前很多论文的安全测法，和主任务基本是分裂的；鲁棒性更是常常直接不测。
这篇至少给了一个更合理的方向：在真实任务压力下测安全，在受控扰动下注重恢复能力。

3）把“可部署性”说得更清楚

论文最后反复强调 trustworthy / deployable，我觉得这不是口号。
它想区分的是两种 agent：

一种是 benchmark 上偶尔会高光
一种是真的能放进流程里跑

这两者之间，差的往往不是一点平均分，而是稳定性、越界行为和过程可审计性。

局限与该追问的地方

这篇我会给高评价，但也不是没有风险点。

1）它还是 benchmark，维护成本会很高

300 个任务、9 类、还要三条证据通道，这套系统的维护和扩展都不轻。
问题会变成：后续能否持续更新任务、避免模型过拟合、保证 rubric 质量一致。

2）LLM judge 仍然没有彻底消失

从正文可看出，他们用了 deterministic checks + judgment-based assessments 的混合方式。
这已经比纯 judge 好很多，但只要有 judgment-based rubric，就还是要面对 judge 偏差问题。

也就是说，它解决的是“完全不看轨迹”的大坑，不是“评分主观性”被完全消灭了。

3）跨模态统一框架很强，但也可能牺牲某些垂直深度

一个 benchmark 同时想覆盖服务编排、视觉、对话，这是优点，也是风险。
要继续看正文表格才知道：每个子域的任务设计是否足够扎实，还是有些子域只是“覆盖到了，但深度一般”。

适合谁读

我觉得这篇特别适合这几类人：

做 agent benchmark / eval infra 的人
这是最直接的目标读者。
做内部 agent 验收和上线评估的人
尤其是已经在用“任务是否完成”做主要指标的团队。
做 browser agent / tool-use / multi-step workflow 的人
因为你迟早会碰到“结果看着对，过程其实不对”的问题。

如果你只是想找一个更强的新 agent 框架，这篇不一定最兴奋；但如果你在意系统到底能不能放心上线，这篇的重要性会比很多“又涨了几分”的 paper 更高。

我的结论

作者声称

只看最终输出会漏掉大量安全违规和鲁棒性失败。
真正可信的 agent 评测需要轨迹级证据、多维评分和跨模态覆盖。
Pass@k 和 Pass^k 应该同时报告，用来区分峰值能力和稳定能力。

实验观察（基于摘要与 HTML 正文可见内容）

这篇 benchmark 规模不算小：300 tasks / 2,159 rubrics / 14 models。
最醒目的结果是：输出导向评测确实会显著漏检，尤其在安全和鲁棒性上。
多模态表现不均衡，video 是明显难点。

我的判断

值得深读。
它不只是“提出了一个新榜单”，而是在逼整个 agent 领域面对一个更不舒服但更重要的问题：

我们到底是在评真正可部署的 agent，还是在评会做 benchmark 表演的 agent？

如果你只能先抓一个重点，我建议先看这篇对 trajectory-aware grading 和 Pass@k vs Pass^k 的论证。
这两块最容易直接迁移到自己的内部评测体系里。

说明

这篇笔记基于 arXiv 摘要页 + arXiv HTML 正文可访问内容 完成；我已拿到摘要、引言、任务与评分设计、部分关键结果，但还没有逐页核对完整 PDF 细节。
因此这是一篇够用且扎实的速读笔记，重点放在方法结构、关键结论和我认为真正值得关注的判断上，而不是逐表逐图精读版。

Claw-Eval：为什么只看最终答案，会把 agent 评测做歪

一句话判断

这篇在讲什么

核心设计

1）不只看结果，要看过程证据

2）把 Completion / Safety / Robustness 放在同一任务里评

3）把随机性显式纳入指标

Benchmark 规模与覆盖

论文给出的关键结果

作者声称

我对这些结果的理解

1）“输出导向评测不可靠”不是空话，而是有量化证据了

2）Pass@k 很容易把人骗乐观

3）视频仍然是很多 agent 的弱项

我觉得它真正的贡献是什么

1）把“轨迹证据”从可选项变成必选项

2）把安全和鲁棒性从边缘指标拉回主任务里

3）把“可部署性”说得更清楚

局限与该追问的地方

1）它还是 benchmark，维护成本会很高

2）LLM judge 仍然没有彻底消失

3）跨模态统一框架很强，但也可能牺牲某些垂直深度

适合谁读

我的结论

作者声称

实验观察（基于摘要与 HTML 正文可见内容）

我的判断

说明

FEATURED TAGS