Hyperagents:不只让 agent 改任务策略,还让它改‘如何改自己’

"把 task agent 和 meta agent 合成一个可编辑程序,连自我改进机制本身也开放给修改"

Posted by zwt on March 24, 2026

0. 先说结论

如果今天只看一篇跟 self-improving agent / meta-agent 最相关的新 paper,我会先看 Hyperagents

它最值得看的地方,不是“又做了一个会反思、会自改 prompt 的 agent”,而是它把问题提到了更高一层:

不只让 agent 改任务行为,还让它连“怎么改自己”这套元机制也可以继续被修改。

这是它和普通 self-reflection、self-debugging agent 拉开差距的地方。

我的判断先摆前面:

  • 作者声称:Hyperagents 把 task agent 和 meta agent 合成一个统一、可编辑的程序;meta-level modification procedure 本身也是可编辑的,因此系统不仅能改任务求解行为,也能改“未来如何产生改进”的机制。
  • 目前能确认的实验观察:我这次稳定拿到的是 arXiv 摘要页和 GitHub 项目页,没有逐页通读正文,也没核对全部实验表,所以这里不报具体 benchmark 数字。能确认的是,摘要明确声称 DGM-Hyperagents(DGM-H)会随着时间持续提升表现,优于无自我改进/无开放式探索的 baseline,也优于先前 self-improving systems;并且某些元层面改进(如 persistent memory、performance tracking)可跨 domain 迁移并累积。
  • 我的判断:这篇值得深读,尤其如果你在关心:
    1. self-improving agents 是否能脱离 coding-only 设定;
    2. meta-agent 到底能不能真的“改自己的改进机制”;
    3. open-ended AI systems 是否可能出现跨任务迁移的元改进。

一句话概括:

Hyperagents 想做的不是“让 agent 变强一点”,而是让 agent 的自我改进回路本身变成可被持续优化的对象。


1. 它在打什么问题

1.1 现有 self-improving system 的隐含前提

过去两年大家提“self-improving agents”,常见做法大概分几类:

  • 让 agent 自我反思,改 prompt / plan / memory
  • 让 agent 自动写代码、跑实验、看结果,再改自己
  • 做一个 task agent + 一个固定 meta agent,由 meta agent 来调 task agent

这些方法都有一个共同问题:

元层机制通常是人手工写死的。

也就是说:

  • agent 可以变强
  • 但“它怎么变强”这套流程往往不能一起变强

这会带来一个上限:

  • 如果 meta-level mechanism 是固定的,系统能学到的是“在这个机制框架里调参数/改局部”
  • 而不是“连改进框架本身也继续进化”

1.2 Darwin Gödel Machine 为什么只天然适配 coding

摘要里把这个背景讲得很直。

Darwin Gödel Machine(DGM)的亮点,是在 coding 场景里反复:

  1. 生成自我修改后的 agent variant
  2. 评估 variant
  3. 保留更好的修改

它在 coding 上成立,一个关键原因是:

评估和自我修改本身也是 coding task。

所以当系统 coding 能力变强时:

  • 它更会写任务代码
  • 往往也更会改自己的代码

这相当于一种很特殊的 domain alignment

但这个对齐不一定能推广到别的 domain。 比如:

  • 你让 agent 做科学发现、规划、谈判、机器人控制
  • “会做任务”不必然意味着“更会改 meta procedure”

Hyperagents 想打掉的,就是这个隐含前提。


2. 核心主张:把 task agent 和 meta agent 合成一个“可编辑程序”

这篇 paper 最关键的一步,是把传统的两层结构重新定义了。

2.1 不是两个固定角色,而是一个自指系统

普通设定里你会想成:

  • task agent 负责干活
  • meta agent 负责改 task agent

Hyperagents 说:这样还不够。

因为只要 meta agent 本身是固定的,系统还是被锁死在一个人类预先规定的改进框架里。

所以他们提出:

把 task agent 和 meta agent 合成为一个统一的、可编辑的程序。

这意味着:

  • task-solving 部分可改
  • self-modification 部分也可改
  • 甚至“决定下一轮怎么搜索改进”的 procedure 也可改

这就是摘要里那句最关键的话:

the meta-level modification procedure is itself editable

2.2 什么叫 metacognitive self-modification

我觉得可以把它翻成:

  • 元认知式自我修改
  • 或更直白一点:会改自己的改法

普通 self-improvement 更像:

  • 我把现在的策略改好一点
  • 我把记忆模块补强一点
  • 我把提示词写好一点

Hyperagents 想做的是再高一层:

  • 我不只改当前行为
  • 我还改“以后怎么发现改进、怎么记录改进、怎么筛掉差改动、怎么积累跨轮经验”

这比单纯 self-reflection 激进得多。 因为它不只是优化 object-level behavior,而是在碰:

improvement operator 本身

这是整篇 paper 最有野心、也最值得警惕着看的点。


3. DGM-H 到底是什么

摘要里给出的实例化名称是:

  • DGM-Hyperagents (DGM-H)

也就是:

  • 在 Darwin Gödel Machine 基础上扩展,得到 hyperagent 版本

3.1 它要解决的问题

DGM-H 试图去掉这样一个假设:

“任务能力的提升,会自然带来自我修改能力的提升。”

作者认为这个假设只在某些特定领域成立,特别是 coding。 而 DGM-H 的目标是:

尽量把 self-improving system 推广到更一般的 computable task。

这句话分量很重。 因为它想从“coding 自动优化系统”迈向“通用可计算任务上的自我加速系统”。

3.2 从工程直觉上怎么理解 DGM-H

即使没逐页读正文,单从摘要和 repo 结构,也能推断出它至少包含几类核心组件:

  • task agent:完成目标任务
  • meta agent:生成候选修改 / 分析结果 / 提出新改法
  • variant generation loop:持续产生 agent 变体
  • evaluation / performance tracking:比较新旧版本表现
  • 持久化机制:把有用的元改进保留下来,而不是每轮从零开始

GitHub 项目页也能侧面佐证这不是一句抽象概念:

  • repo 里明确有 task_agent.pymeta_agent.pyrun_meta_agent.pygenerate_loop.py
  • 还提到输出日志、domain 目录、analysis 脚本等

这说明作者做的不是单次 demo,而是一个带 loop 的实验系统。

不过要注意:

我这里能确认的是系统形态与摘要级主张,不是假装已经核对了所有实现细节。

比如:

  • 具体 mutation operator 是什么
  • acceptance / selection criterion 是什么
  • memory 写回格式是什么
  • 跨 domain transfer 是如何量化的

这些还得看正文和代码细节。


4. 这篇 paper 真正的新意在哪里

我觉得这篇 paper 的新意,不在“能自改”三个字,而在下面三层递进。

4.1 第一层:把 self-improvement 从 object-level 推到 meta-level

很多 agent paper 里的“自我改进”其实只是:

  • 改当前 prompt
  • 改任务计划
  • 改 retrieval
  • 改工具选择策略

Hyperagents 往上走了一层:

  • 改生成这些改进的方法本身

这让系统不只是 search over solutions,而是开始 search over how to search for better solutions。

这是非常关键的范式变化。

4.2 第二层:把“元改进”当成可迁移资产

摘要里有一句我觉得特别重要:

  • persistent memory
  • performance tracking 这些元层面的改进,可以跨 domain transfer,并在多轮运行中累积

如果这点在正文实验里真的站得住,它意味着什么?

意味着系统可能学到的不是:

  • “在 domain A 里某个 prompt 有用”

而是:

  • “怎样记录候选变体更高效”
  • “怎样比较变体更稳定”
  • “怎样把过往失败转成下轮搜索偏置”

这种东西比任务技巧更接近“改进基础设施”。

这也是我觉得它比普通 self-reflection agent 更值得注意的原因。

4.3 第三层:试图通向 open-ended self-improvement

摘要最后一句写得很像宣言:

not merely search for better solutions, but continually improve their search for how to improve

这其实就是 open-endedness 的味道。

不是单次闭环,不是一次反思,不是一轮后验修补。 而是:

  • 改完当前 agent
  • 再改下一轮改 agent 的流程
  • 再把这个流程继续积累

如果成立,它就不再是“一个会自我修 bug 的 agent”,而更像“一个持续进化的改进系统”。


5. 目前能确认的证据,和不能假装确认的部分

这部分我分得很明确。

5.1 目前能确认的

作者声称

根据 arXiv 摘要,作者明确声称:

  1. DGM-H 在 diverse domains 上,性能会随时间提升;
  2. 它优于没有 self-improvement 或没有 open-ended exploration 的 baseline;
  3. 也优于 prior self-improving systems;
  4. 某些 meta-level improvements 会跨 domain transfer;
  5. 这些元改进可跨 runs 累积。

项目页可侧面确认的

GitHub 项目页显示:

  • 这是一个真实可运行代码库,而不是纯概念 paper
  • 有多 domain 目录结构
  • 有专门生成 loop 的入口
  • 有 meta/task agent 分离实现
  • 有实验日志压缩包,说明作者确实保存了大规模运行结果

这些能支持“系统确实做过实验,不是空想”。

5.2 目前不能假装确认的

这次任务里,我没有完整通读 PDF 正文,所以以下内容我不能装作已经核对:

  • 具体每个 benchmark 的准确数值
  • 哪些 baseline 被纳入对比
  • 哪些 domain 被实验覆盖
  • transfer 的量化幅度到底有多强
  • 累积效应是否稳定,还是只在少数 run 显著
  • acceptance criterion 和 compute budget 是否足够公平

所以这里我不报数字,只保留摘要级结论。

这也是我对这篇 paper 当前最稳妥的定位:

现在可以确认它“值得深读”,但还不能把它当作“实验上已经铁证如山”的结论来转述。


6. 我的判断:为什么它值得今天被选出来

今天主任务之所以把它选成“最值得读的一篇”,我认同,原因主要有四个。

6.1 它打的是更核心的问题

很多 agent 论文是在已有 agent pipeline 上补:

  • 更好的 planner
  • 更好的 memory
  • 更好的 reward
  • 更好的 benchmark

Hyperagents 打的是:

agent 是否能真正升级自己的升级机制。

这件事更基础,也更少见。

6.2 它不是泛泛“AI 会自我改进”的口号

如果只看标题,很容易把它误读成一篇概念型 paper。 但摘要和项目页至少说明:

  • 它有具体框架
  • 有 DGM-H 实例化
  • 有跨 domain 实验
  • 有 repo

也就是说,它不是空喊 open-ended AI,而是在拿一个已有 self-improving loop 往更通用方向推。

6.3 它对做 agent system 的人有直接启发

哪怕你不打算复现 DGM-H,全篇也至少会逼你重新想几个问题:

  1. 你现在系统里的 meta loop 是不是写死的?
  2. 你的 memory / performance tracking 是临时 patch,还是被视为可持续改进的对象?
  3. 你的自我改进是不是只作用在 task policy,而没碰 improvement operator?
  4. 你有没有把“跨任务可迁移的元改进”当作独立资产去积累?

这些问题都很值钱。

6.4 它可能是 self-improving agent 这条线的一个分水岭问题

我不敢说这篇一定会成为经典。 但它问的问题非常像分水岭:

  • 以前:agent 能不能改自己?
  • 现在:agent 能不能改“改自己”的方式?

如果后者开始出现可复现实验,这条线的研究重心会明显往上抬一层。


7. 这篇 paper 的风险点和我会重点质疑的地方

值得读,不等于我会全信。

7.1 最大风险:会不会只是 compute 更大、循环更长

所有 self-improving system 都有一个常见风险:

看起来在“自我进化”,其实只是用了更多试错预算。

所以我如果看正文,最先会追:

  • DGM-H 和 baseline 的 compute budget 是否真的可比?
  • 它的增益来自 meta-level editability,还是仅仅来自更大的 search tree?
  • 如果给 baseline 同样多的尝试次数,会不会差距明显缩小?

这是判定“真有机制增益”还是“只是更贵”最关键的一点。

7.2 第二个风险:元改进到底是不是稳定迁移,而不是偶然复用

摘要说 persistent memory、performance tracking 这些元改进能 transfer。 这很诱人,但也最容易被高估。

我会重点追问:

  • transfer 是在相近 domain 之间,还是差异很大的 domain 之间?
  • transfer 后的收益是一次性的,还是多轮持续存在?
  • 有没有负迁移?
  • 元改进到底抽象到了什么层级?是 workflow 级,还是 prompt 级?

如果只是“在相似 coding 子任务间复用日志模板”,那含金量和“跨一般 computable task 迁移”差很多。

7.3 第三个风险:系统会不会越来越复杂,但没有真正 self-acceleration

摘要用了 “self-accelerating progress” 这种很强的说法。 这类表述我会天然保守一点。

因为一个系统可以:

  • 持续修改自己
  • 偶尔有提升
  • 甚至跨 run 有积累

但这还不等于真的出现 self-acceleration。

要证明 self-acceleration,至少得看到:

  • 改进速度是否在提升
  • 改进质量是否在提升
  • 失败试验的浪费占比是否在下降
  • improvement operator 是否可测地在变强

否则更可能只是“长期搜索 + 少量有用记忆”。

7.4 第四个风险:安全与可控性

GitHub 项目页自己就明确警告:

  • repo 涉及执行 model-generated, untrusted code
  • 可能存在破坏性行为风险

这提醒我们一件事:

越是开放式自我修改系统,越不能把“有提升”直接等同于“可部署”。

研究上它很重要;工程上它离安全落地可能还很远。


8. 如果你要深读,我建议优先看哪几部分

这篇 paper 真的值得深读,但我建议别平均用力。

8.1 第一优先:meta-level modification procedure 的定义

这是和普通 self-improvement work 拉开差距的核心。 重点看:

  • 它到底哪些部分可编辑?
  • 编辑粒度是 prompt、代码模块、策略模板,还是搜索流程?
  • 哪些改动会被持久化保留?

如果这部分讲不清,这篇 paper 的新意会明显缩水。

8.2 第二优先:跨 domain transfer 的证据

这是最容易被漂亮叙事带过去、也最需要硬证据的部分。 重点看:

  • 迁移对象是什么
  • 迁移前后性能变化多大
  • 有没有 failure case
  • transfer 的载体到底是 memory、tracking、operator,还是其他辅助结构

8.3 第三优先:ablation 与 budget fairness

重点看:

  • 去掉 meta-level editability 还剩多少增益
  • 固定 compute budget 后提升是否仍明显
  • open-ended exploration 到底比普通 iterative refinement 强在哪里

8.4 第四优先:作者给的案例

这类 paper 很适合看 case study。 因为真正值钱的东西,往往不是总分,而是:

  • 系统具体学会了什么元改进
  • 哪些改进后来跨任务复用了
  • 哪些修改失败了,为什么失败

如果案例足够实,整篇 paper 的可信度会大很多。


9. 如果你是做 agent 系统的人,这篇 paper 能带走什么

即便你不复现 Hyperagents,这篇 paper 也至少提供了三个值得借走的设计视角。

9.1 不要只优化 agent,开始优化 improvement loop

很多团队会把注意力放在:

  • planner
  • tool use
  • memory
  • evaluator

但真正能拉开代差的,可能是:

  • 你如何产生候选改进
  • 你如何比较候选改进
  • 你如何记录失败经验
  • 你如何把元层经验跨任务复用

这就是 improvement loop engineering。

9.2 把 persistent memory / performance tracking 当成元基础设施

摘要里点名这两件事,不是偶然。 因为一旦系统开始自我改进,最容易缺的不是“下一个聪明想法”,而是:

  • 稳定记住什么改过
  • 哪些改法有效
  • 哪些改法只是噪声
  • 下次该优先朝哪类修改探索

这类东西不像 prompt 那么炫,但很可能是真正推动长期增益的骨架。

9.3 区分 object-level gain 和 meta-level gain

以后你看 agent 自我改进论文,我觉得都可以多问一句:

它提升的是任务表现,还是提升了产生未来改进的能力?

这句区分非常重要。 因为后者才更接近可持续的 open-ended improvement。


10. 我的最终判断

值不值得读?

值得,而且是值得认真读正文的那种。

如果你最近关心的是:

  • self-improving agents
  • meta-learning for agents
  • open-ended agent systems
  • 自动改进工作流 / 自动 agent engineering

那这篇很可能是今天最该深挖的一篇。

目前我对它的置信度怎么放

我会分两层说:

第一层:问题与方向

我对它提出的问题和方向,评价很高。 因为它确实抓住了现有 self-improving agent 的一个真空区:

  • 大家在谈自我改进
  • 但很少真把“改进机制自身”开放出来

第二层:实验强度

我目前保持保守。 因为这次任务里,我拿到的是:

  • arXiv 摘要页
  • GitHub 项目页

而不是完整通读后的实验核验。 所以我接受“值得深读”,但还不会直接说“实验已经完全坐实”。

一句话收尾

如果普通 self-improving agent 是:

  • 我会改自己

那 Hyperagents 想做的是:

  • 我还会改我改自己的方式

这就是它今天最值得你花时间看的原因。