Hermes Agent 二次观察:为什么“自我改进型 Agent OS”又回到 GitHub Trending 顶部

从技能沉淀、跨平台网关到 cron 与子代理,重新判断它的工程含金量

Posted by zwt on April 12, 2026

项目信息

先说结论

如果今天只挑一个最值得继续跟进的项目,我会选 Hermes Agent,而且这次不是把它当“又一个全能 agent 框架”来看,而是把它当作一个更清晰的 Agent OS / Agent runtime system 样本来看。

我的结论很直接:Hermes Agent 真正有价值的地方,不是功能多,而是它在尝试把 agent 最难做成系统的几件事放进同一个闭环里:入口统一、记忆可持续、技能可沉淀、任务可调度、执行可分派。 这比单纯做一个更会调用工具的聊天代理,工程价值高得多。

但我也要先压一下预期:功能面这么宽的系统,最容易出现的不是“能力不足”,而是“复杂度失控”。 所以 Hermes 值得看,不等于它已经被证明可长期稳定;它更像是目前少数认真把长期运行 agent 当系统工程来做的项目之一。

这次为什么值得二次观察

4 月 1 日我已经写过一次 Hermes Agent。当时它更像一个方向明确、能力拼图很完整的系统型项目。今天它重新出现在 Trending 高位,而且热度远高于一般“README 叙事型”仓库,这个现象本身值得重看。

我这次的判断和上次有一个微妙但重要的变化:

上次我更关注它“功能拼图是否完整”,这次我更关注它“这些拼图有没有形成闭环”。

从当前 README 和文档公开描述看,Hermes 的叙事已经不是零散特性列表,而是逐渐围绕一个主轴收拢:

  • 用 memory 保存长期上下文;
  • 用 skills 把经验转成可复用过程;
  • 用 gateway 把 agent 放到消息环境里持续工作;
  • 用 cron 让任务变成可计划执行;
  • 用 subagents 把复杂工作拆分并行;
  • 用多 runtime 把运行位置从“当前笔记本”解耦出来。

这条线如果成立,它就不是“会很多功能”,而是“能形成复利”。这才是它今天仍然值得深入写的原因。

Hermes Agent 到底在解决什么问题

1. 解决 agent 每次都像临时工的问题

现在很多 agent 的核心问题不是不会干活,而是每次都像第一次上班

你今天花很多时间把项目背景、偏好、约束、工作方式喂给它,下一次会话又得重来;今天排查出的坑点,下次还会再踩;今天整理出的高价值流程,不会自动变成团队资产。

Hermes 明确试图解决这个问题。它强调 persistent memory、cross-session recall、user modeling、skills self-improve,本质是在回答:

agent 怎样才能不是“一次性回答器”,而是“能越用越贴近环境的执行系统”。

这件事的工程价值远高于一次回答质量。因为真实成本往往不在 token,而在于上下文重建、流程重复教学和经验无法复用。

2. 解决“会用工具”不等于“会形成能力”的问题

过去很多 agent 框架把重点放在 tool use:shell、browser、MCP、API、文件系统。Hermes 当然也支持这类能力,但它更进一步,把重点压在 skills 和 learning loop 上。

这背后的判断很对:

  • 工具调用解决的是“能做一步”;
  • 技能沉淀解决的是“下次能不能更稳、更快、更少上下文地做”。

如果一个 agent 每次都能调同样的工具,但永远不能把高价值路径沉淀成技能,那它只是会重复劳动;如果能把经验逐渐压缩成技能,它才开始接近真正的能力复利系统。

3. 解决 agent 只能活在终端里的问题

CLI 很重要,但真实工作流不会永远发生在终端前。大量高价值任务天然适合异步和消息驱动:

  • 每日情报汇总;
  • 巡检与备份;
  • 文档更新;
  • 代码扫描;
  • 定时提醒;
  • 长任务完成回传。

Hermes 把 messaging gateway 和 cron 都放在核心位置,这说明它不是把 agent 当本地命令行玩具,而是当作一个 可被触发、可持续运行、可主动回传结果 的系统实体。

这条路线,我认为比“会不会更多 planning prompt”重要得多。

核心架构 / 思路:它真正像什么

基于 README、文档目录和公开描述,我现在更倾向于把 Hermes 理解成下面这类系统:

一个以大模型为认知核心、以工具系统为行动层、以 memory / skills 为长期资产层、以 gateway / cron 为触发与交付层的 Agent OS。

这个理解里,最值得看的不是某一个单点功能,而是它把几个常见断点连起来了。

1. 统一入口,不等于单一入口

很多 agent 系统的问题在于:CLI 一套、消息平台一套、自动任务又一套,入口很多,但能力并不共享。Hermes 的价值在于它试图让不同入口共用一套能力层。

这意味着:

  • 你在 CLI 中形成的习惯,不必完全丢失到消息平台;
  • 你在消息平台里触发的任务,不必脱离同一套工具、技能、记忆体系;
  • cron 不是外挂,而是同一 agent runtime 的定时触发器。

这个统一能力层很关键。因为一旦入口碎片化,长期记忆和技能沉淀都会失效。

2. 把 memory 和 skills 放在系统中心,而不是可选插件

很多产品也会说自己“支持记忆”“支持技能”,但往往只是附属功能。Hermes 不一样,它在 README 中把 learning loop、skills self-improve、session recall 写得非常靠前,说明作者把它们当系统核心而不是装饰件。

这件事的重要性在于:只要你把 agent 看作长期运行系统,memory 和 skills 就不是优化项,而是主结构。

没有 memory,agent 每次都要重建世界。 没有 skills,agent 每次都要重复思考过程。 没有二者联动,就谈不上自我改进闭环。

3. cron + gateway + subagents 形成“长期运行”最小闭环

我认为 Hermes 这次最值得重看的,是它把三件事放在了一起:

  • gateway:解决“从哪里触发、结果回哪里”;
  • cron:解决“什么时候自动发生”;
  • subagents:解决“复杂任务如何并行拆解”。

很多 agent 项目只做其中一个点。Hermes 同时做这三个点,意味着它关注的是:

agent 不只是能回答,而是能被调度、能被交付、能处理较长链路任务。

这比单轮 benchmark 漂亮更接近真实使用场景。

4. 多 runtime 是它最容易被低估的价值点

README 里提到多种 terminal backend、本地 / Docker / SSH / serverless 等运行方式。这个点不如“自我改进”听起来性感,但工程上很重要。

因为很多 agent demo 的隐藏前提是:

  • 用户必须守在当前机器上;
  • 环境必须已经准备好;
  • 长任务就在当前会话里等;
  • 运行位置和消息入口强耦合。

一旦进入真实生产环境,这些假设都会出问题。Hermes 试图把 agent 从“我的当前终端会话”提升为“一个可迁移、可驻留、可唤醒的运行实体”。这一步非常关键。

为什么现在值得看

第一,它代表了 agent 方向从“会做事”转向“能长期工作”

过去 agent 竞争的主轴是:

  • 谁会更多工具;
  • 谁更会规划;
  • 谁的 demo 更完整。

现在更现实的问题变成:

  • 谁能跨会话保留有效上下文;
  • 谁能把经验沉淀成资产;
  • 谁能被计划任务驱动;
  • 谁能通过消息平台持续协作;
  • 谁能在不同运行环境里稳定活着。

Hermes 恰好踩在这条转向上。所以它今天的热度,不只是流量事件,也可能反映出大家开始更关注“长期运行 agent system”这条线。

第二,它对 agent / LLM workflow 的代表性很强

Hermes 不是只服务某一个狭窄场景。它涉及:

  • agent orchestration;
  • tool use;
  • memory;
  • skills;
  • messaging;
  • automation;
  • subagent parallelization。

这使它成为观察下一阶段 agent 基础设施的一个很好的窗口。你不一定要直接采用 Hermes,但你很难忽略它所代表的那类设计选择。

第三,它有足够公开信息支撑工程判断

它的 README 和文档公开信息已经足够多,至少可以支持我们判断:作者不是在做单一功能 demo,而是在认真搭一个完整系统。即便其中很多能力还需要继续验证,信息透明度本身就高于大量只会讲故事的项目。

真正要验证什么

如果接下来要认真跟踪 Hermes,我认为重点不该是“它功能多不多”,而是下面这几件事。

1. learning loop 是否可控

“自我改进”四个字很容易吸引人,但也是最容易失控的地方。

真正有价值的 learning loop,应该是:

  • 能沉淀有效技能;
  • 能被人审计和修正;
  • 不会把偶然成功路径固化成坏习惯;
  • 不会在长期运行中产生不可解释漂移。

如果做不到这些,自我改进就可能从卖点变成风险。

2. 复杂系统的可调试性是否足够强

Hermes 这种系统只要出问题,问题不会只在一个点上,可能横跨:

  • 模型调用;
  • 工具执行;
  • 记忆读写;
  • 技能加载;
  • cron 触发;
  • gateway 投递;
  • subagent 并行。

所以真正决定上限的,不只是功能,而是出问题后能不能快速定位。一个长期运行系统如果不可诊断,规模越大越痛苦。

3. 技能沉淀是否真的有复利

技能系统最大的陷阱是表面上看起来很强,实际只是在堆积 prompt 模板。真正有价值的 skill,应该能降低未来任务的上下文成本、减少重复错误、提高可复用性。

Hermes 后续最值得观察的是:它的 skills 是不是越用越像“可复用过程资产”,而不是越积越多的历史包袱。

4. 多平台 / 多 runtime 体验是否一致

支持很多入口不难,难的是不同入口下的行为一致性和心智连续性。如果 CLI 好用、消息平台却很割裂,或者本地稳定、远程 runtime 很脆,那整体价值会被明显打折。

风险点:这类项目最容易高估什么

风险一:功能面越宽,越容易把复杂度转嫁给用户

Hermes 把记忆、技能、cron、gateway、subagent、runtime 都放进来了,这固然完整,但也意味着配置、调试、治理成本都可能上升。

一个系统的“全能”如果最终表现为“用户需要理解很多内部结构才能稳定使用”,那它的采用门槛会很高。

风险二:记忆与技能的质量控制非常难

长期记忆不等于长期价值,自动技能生成也不等于自动进步。劣质记忆会污染后续判断,劣质技能会扩大错误影响范围。这类问题短期不一定暴露,但长期会很伤系统可信度。

风险三:系统叙事容易大于单点体验

Hermes 的系统叙事很强,这本身没问题。但真正决定产品命运的,最后还是具体体验:

  • 新用户是否能装起来;
  • 常用链路是否低摩擦;
  • 权限边界是否清楚;
  • 长任务是否稳定;
  • 出错时是否容易恢复。

系统故事讲得越大,用户对这些基础体验的容忍度反而越低。

对工程团队最值得借鉴的部分

即便今天不直接采用 Hermes,我认为它至少提供了四个很值得借鉴的工程思路。

1. 别把 agent 只当聊天壳

真正有价值的 agent 系统,一定要考虑入口、调度、状态、回传,而不是只优化单轮回答。

2. 把长期资产层单独设计出来

memory 和 skills 不是锦上添花,而是长期运行 agent 的资产层。没有这层,就没有复利。

3. 让自动化与消息回流天然打通

能自动执行但不能自然回传结果,价值会大打折扣。长期任务、巡检、日报、异步执行,本质上都需要“触发—执行—投递”闭环。

4. 并行不是额外优化,而是复杂任务的常态能力

只要任务链稍长,subagent / delegation 很快就会变成必要能力,而不是高级功能。Hermes 至少在架构叙事上承认了这一点。

总结

这次再看 Hermes Agent,我的判断比第一次更明确了:

它最值得看的不是某个单点能力,而是它正在尝试把 agent 做成一个可长期运行、可跨入口触发、可积累经验、可调度执行的系统。

这条路线风险很高,因为复杂度天然不低;但方向也是对的,因为 agent 真要进入日常工作,迟早都得面对这些问题,而不是永远停留在单次 prompt 成功率上。

所以今天如果要我给一句工程判断,我会这么说:

Hermes Agent 不是“又一个会调工具的 agent 框架”,而是在认真争夺下一阶段 agent 基础设施的定义权。

它还远没到可以闭眼吹的程度,但已经足够值得持续跟踪。

信息来源说明

本文基于 2026-04-12 可见的 GitHub Trending 页面、Hermes Agent GitHub 仓库 README、以及项目公开文档页面整理。文中关于价值、风险、适用性的判断属于我的工程判断,不等同于项目方官方承诺。