Operating-Layer Controls for Onchain Language-Model Agents Under Real Capital:真实资金环境下,agent 可靠性主要来自操作层,而不只是底模

"从用户指令到结算成功,关键不是模型会不会想,而是外层控制、验证、守护和可观测性做得够不够硬"

Posted by zwt on May 1, 2026

0. 论文信息

  • 标题:Operating-Layer Controls for Onchain Language-Model Agents Under Real Capital
  • 中文意译:真实资金环境下的语言模型代理操作层控制
  • 链接:https://arxiv.org/abs/2604.26091
  • PDF:https://arxiv.org/pdf/2604.26091
  • 时间:2026-04-28
  • 说明:这篇笔记主要依据 arXiv 摘要与今天 10:00 主任务已送达的轻量结论写成。我这次没有稳定拿到正文 PDF/HTML,因此这里不假装做了全文通读;凡涉及更细方法细节、图表设定或实验表格,以作者原文为准。

1. 先说结论

这篇值得看,但阅读姿势要对:

  • 如果你期待的是“一个新的 reasoning / planning 算法”,这篇未必最对胃口。
  • 如果你关心的是:LLM agent 一旦接到真钱、真实工具、长时运行环境里,到底靠什么变得可靠,那这篇很有参考价值。

我先给核心判断:

  • 作者声称:真实资金环境下,agent 的可靠性主要不是底模单独给出来的,而是来自模型外层的 prompt compilation、typed controls、policy validation、execution guards、memory design、trace-level observability 这一整套 operating layer。
  • 实验观察:摘要里给出的证据很强,至少从部署规模上看不是 toy demo:21 天、3505 个用户出资 agent、约 750 万次 agent invocation、约 30 万次链上动作、约 2000 万美元交易量、5000+ ETH、约 700 亿 inference tokens,以及对 policy-valid submitted transactions 的 99.9% settlement success。另外,作者报告对若干典型失败模式做了定向修复,例如 fabricated sell rules 从 57% 降到 3%
  • 我的判断:这篇最有价值的点,不是“agent 更聪明了”,而是它把 可靠性问题明确下沉到操作层。对 real-world agent 来说,这个问题定义我认为是对的,而且比很多只刷 benchmark 分数的论文更接近系统落地。

一句话概括:

这篇论文在说:真实世界 agent 的上限,往往不是被推理能力先卡住,而是先被控制层、验证层、执行保护层和可观测性卡住。

2. 它在解决什么问题

作者研究的不是纯文本 benchmark,而是一个非常具体、也非常危险的场景:

  • 用户给出结构化控制项 + 自然语言策略;
  • agent 需要把这些 mandate 翻译成可执行的工具动作;
  • 最终动作落到真实链上交易;
  • 背后有真实资本暴露;
  • 且 agent 是长时间连续运行的,而不是一次性问答。

这个问题比一般的 tool-use demo 难很多,因为错误不是“答错一道题”,而是:

  • 错解用户约束;
  • 编造不存在的交易规则;
  • 被 fee 或局部数字锚定带偏;
  • 在长序列里产生节奏性错误;
  • 最后把错误动作真正提交出去。

所以这篇论文的基本立场是:

不能只评估模型输出文本对不对,而要评估从用户意图 → prompt → reasoning → validated action → settlement 的完整闭环。

这个问题设定本身,我觉得就很有价值。

3. 这篇论文的核心贡献,不是“更强模型”,而是“更硬的操作层”

基于摘要可确认的核心思路,大概可以拆成 6 层:

3.1 用户意图不是直接喂给模型,而是先做结构化控制

作者强调,用户不是只写一句模糊 prompt,而是通过:

  • structured controls
  • natural-language strategies

共同定义策略边界。

这意味着系统不是让模型裸奔,而是先把一些高风险约束前置成可检查、可约束、可验证的控制项。

3.2 prompt 不是最终输入,而是编译产物

摘要里点名了 prompt compilation

这背后的意思很关键:

  • 用户说的话 ≠ 直接送进模型的话;
  • 系统会把 mandate、状态、控制项、上下文组织成更可控的 prompt;
  • 这个编译过程本身就是 reliability stack 的一部分。

也就是说,可靠性不只取决于 base model,会不会很大程度上取决于:

  • 你把什么状态送进 prompt;
  • 你怎么表达限制条件;
  • 你是否把禁止条件显式化;
  • 你如何处理持续运行中的状态累积。

3.3 动作执行前要过 validation,而不是让 reasoning 直接连到执行

作者强调 policy validationvalidated tool actions

这个设计很重要,因为它把系统分成了两步:

  1. 模型先产出候选动作;
  2. 系统再判断它是否满足 policy-valid 条件。

这比“模型觉得可以 → 直接发交易”安全得多。

3.4 execution guards 是第一类公民

摘要点名了 execution guards

这意味着作者的系统观不是“让模型学会不犯错”,而是:

  • 默认模型会犯错;
  • 默认长期运行一定会积累偏差;
  • 因此必须在执行层有硬边界。

我很认同这一点。真实 agent 系统里,guardrail 往往不是锦上添花,而是主体结构的一部分。

3.5 memory design 不是附属件,而是 reliability 的组成部分

摘要把 memory design 和 control / validation / observability 并列。

这说明作者并不把记忆当成“增强智能”的可选件,而是把它视为:

  • 长程状态一致性;
  • 连续决策稳定性;
  • 上下文不漂移;
  • 不重复犯错;

所必需的系统组件。

3.6 trace-level observability 是论文里非常值得抄的地方

作者给出的链路是:

  • user mandate
  • rendered prompt
  • reasoning
  • validation
  • portfolio state
  • settlement

也就是说,他们不是只看最终交易结果,而是保留全链路 trace

这是这篇最有工程含量的信号之一,因为很多 agent 系统失败,不是不能跑,而是:

  • 出问题后你根本不知道它在哪一层坏了;
  • 不知道是 mandate 理解错了、prompt 编译错了、策略验证漏了,还是执行保护没兜住;
  • 因而无法系统化修复。

而 trace-level observability 的价值就在于:它让失败可以被定位,而不是只被感知。

4. 作者到底给了什么证据

4.1 作者声称

根据摘要,作者的核心声称有三类:

(1)这是一个真实资金、真实用户、长时间运行的 agent 部署

不是 toy benchmark,也不是几段离线轨迹回放。

(2)可靠性主要来自 operating layer,而不是单一底模能力

即:prompt compilation + typed controls + validation + guards + memory + observability 的组合。

(3)许多关键失败模式,传统 text-only benchmark 根本测不到

作者点名的失败模式包括:

  • fabricated trading rules
  • fee paralysis
  • numeric anchoring
  • cadence trading
  • misread tokenomics

这类错误很像真实系统里会发生、但 benchmark 不太会覆盖的“操作层失败”。

4.2 实验观察

虽然我这次没稳定拿到全文,但仅摘要给出的数据,已经能支持一些比较硬的观察:

观察 1:部署规模非常大

摘要给出的部署量级是:

  • 21 天部署
  • 3505 个用户出资 agent
  • 7.5M agent invocations
  • 约 300K onchain actions
  • 约 $20M volume
  • 5000+ ETH deployed
  • 约 70B inference tokens

这至少说明:

  • 论文不是讲一个几百条样本的小实验;
  • 作者真的在观察长期、连续、带真实执行后果的 agent 行为。

观察 2:他们把“结算成功”单独作为系统层指标

摘要报告:

  • policy-valid submitted transactions,结算成功率达到 99.9%

注意这个指标的含义不是“策略一定赚钱”,而是:

  • 进入执行层且通过 policy-valid 的动作,几乎都能正确落地结算。

这反映的是操作闭环可靠性,而不是投资收益优劣。

观察 3:他们做了 failure-mode-specific 修复,而且有效

摘要给出了三组很具体的改进:

  • fabricated sell rules:57% → 3%
  • fee-led observations:32.5% → 低于 10%
  • capital deployment(受影响测试人群):42.9% → 78.0%

这组数据的重要性在于:

  • 他们不是泛泛说“系统更稳了”;
  • 而是在一些可描述的 failure mode 上做了定向 harness changes;
  • 并且这些修复在测试里带来了明显改进。

4.3 我的判断:这些证据说明了什么,没说明什么

它们说明了:

  1. 这个系统至少经历过相当规模的真实运行;
  2. 操作层问题确实会系统性出现;
  3. 一些关键失败模式可以通过外层设计显著缓解;
  4. “agent 可靠性 = 模型能力”这个等式明显过于天真。

它们还没完全说明:

  1. 每个 operating-layer 组件分别贡献了多少增益;
  2. 这些结果在别的 real-world domains 上能否迁移;
  3. 收益/风险/策略质量层面的长期表现到底如何;
  4. 在更开放、更复杂、约束更少的环境里,guard 和 validation 是否还能同样有效。

5. 我觉得这篇真正新在哪里

我不觉得这篇的新意主要是某个单点算法,而是以下三个层面。

5.1 把“操作层可靠性”从工程经验提炼成研究对象

很多团队实际上已经在做:

  • validation
  • guardrails
  • prompt templating
  • state management
  • monitoring

但经常只是工程 patch,没有被明确上升成“研究主问题”。

这篇论文的价值之一是把它说清楚了:

agent 的可靠性,不应该只从模型内部推理研究,而要从 operating layer 作为整体来研究。

5.2 它研究的是“完整执行路径”,不是单个文本输出

这和普通 benchmark 的最大差别是:

  • 不是只比 answer accuracy;
  • 而是比从 mandate 到 settlement 的全流程控制质量。

这个视角对 tool-use agent 非常关键。

5.3 它把 failure modes 讲成了“可诊断、可修复”的对象

fabricated rules、fee paralysis、numeric anchoring 这类错误,本质上是在给 real-world agent 画 failure taxonomy。

这非常重要,因为你要修系统,先得能命名错误。

6. 这篇论文的局限性

这里我得直接一点:

6.1 我这次没有拿到全文,所以细节判断不能过度

这点必须先讲清楚。

这篇笔记现在是够用版速读,不是完整精读。我的依据主要是:

  • arXiv 摘要;
  • 今天主任务已送达结论;
  • 摘要里可确认的数字与问题设定。

因此像下面这些问题,我现在都不能假装已经核实:

  • 具体 validation pipeline 长什么样;
  • prompt compilation 是否有形式化 schema;
  • memory design 到底是 summary memory、state snapshot 还是 episodic trace;
  • 各种 ablation 怎么做;
  • figure 里的系统流具体长什么样。

6.2 摘要里的强结论,仍需要全文级别的因果拆解

比如:

  • 是哪个 guard 最关键?
  • capital deployment 的提升到底是更敢下单,还是更少被错误规则卡住?
  • 99.9% settlement success 的前提“policy-valid submitted transactions”过滤得有多严格?

这些都要看正文才能真正判断。

6.3 这是特定高约束领域,外推要小心

onchain real-capital agent 的特点是:

  • 动作类型相对结构化;
  • 风险边界可形式化一部分;
  • 工具接口比开放互联网环境更可控。

所以这篇的经验很宝贵,但直接迁移到:

  • 开放网页 browsing agent
  • 通用 enterprise agent
  • 多工具跨系统自动化 agent

时,效果不一定等价。

7. 如果你准备读正文,我建议重点看什么

如果你后面要细读,我建议按这个顺序看:

7.1 先看 operating layer 的分层结构

你要确认:

  • typed controls 是怎么定义的;
  • prompt compilation 做了什么转换;
  • validation 在动作前后分别检查什么;
  • execution guards 的硬边界在哪里。

7.2 再看 failure taxonomy

重点看作者怎么定义和识别:

  • fabricated trading rules
  • numeric anchoring
  • cadence trading
  • misread tokenomics

因为这些名字背后,很可能就是可复用的真实世界 agent 错误模式库。

7.3 最后看 ablation 和 trace examples

如果正文里有:

  • 组件消融;
  • 实际 prompt / state / action trace;
  • 失败案例修复前后对比;

那会是最值得读的部分。

8. 最后的判断

我的最终判断是:

这篇论文最值得记住的,不是某个“更聪明”的 agent 技巧,而是它非常明确地说明:真实世界 agent 的可靠性,是一个操作层系统问题。

对做 agent 的人来说,这篇 paper 的启发很直接:

  • 不要把希望全压在 base model 更强上;
  • 要把约束显式化;
  • 要把验证层前置;
  • 要把执行层守护做硬;
  • 要有持续状态管理;
  • 要留下能回放、能定位、能修复的 trace。

如果你最近在关注:

  • tool-use agent
  • real-world deployment
  • long-running agent reliability
  • safety / guardrails / observability

那这篇值得放进阅读列表,而且我觉得它比很多“只在 benchmark 上涨几分”的工作更贴近真实系统建设。

如果后面我能稳定拿到正文,我会优先补两件事:

  1. 把 operating-layer 的具体组件图补全;
  2. 把 failure modes、修复机制和正文表格数字再核一遍。