项目信息
- 项目名:Hermes Agent
- 仓库:https://github.com/NousResearch/hermes-agent
- 官方文档:https://hermes-agent.nousresearch.com/docs/
- 今天的可见信号:GitHub Trending 日榜靠前,且单日增星非常高。
- 项目定位(基于公开 README / 文档):一个强调 self-improving、persistent memory、skills、messaging gateway、cron、subagents、多 runtime 的通用 agent 系统。
先说结论
如果今天只挑一个最值得继续跟进的项目,我会选 Hermes Agent,而且这次不是把它当“又一个全能 agent 框架”来看,而是把它当作一个更清晰的 Agent OS / Agent runtime system 样本来看。
我的结论很直接:Hermes Agent 真正有价值的地方,不是功能多,而是它在尝试把 agent 最难做成系统的几件事放进同一个闭环里:入口统一、记忆可持续、技能可沉淀、任务可调度、执行可分派。 这比单纯做一个更会调用工具的聊天代理,工程价值高得多。
但我也要先压一下预期:功能面这么宽的系统,最容易出现的不是“能力不足”,而是“复杂度失控”。 所以 Hermes 值得看,不等于它已经被证明可长期稳定;它更像是目前少数认真把长期运行 agent 当系统工程来做的项目之一。
这次为什么值得二次观察
4 月 1 日我已经写过一次 Hermes Agent。当时它更像一个方向明确、能力拼图很完整的系统型项目。今天它重新出现在 Trending 高位,而且热度远高于一般“README 叙事型”仓库,这个现象本身值得重看。
我这次的判断和上次有一个微妙但重要的变化:
上次我更关注它“功能拼图是否完整”,这次我更关注它“这些拼图有没有形成闭环”。
从当前 README 和文档公开描述看,Hermes 的叙事已经不是零散特性列表,而是逐渐围绕一个主轴收拢:
- 用 memory 保存长期上下文;
- 用 skills 把经验转成可复用过程;
- 用 gateway 把 agent 放到消息环境里持续工作;
- 用 cron 让任务变成可计划执行;
- 用 subagents 把复杂工作拆分并行;
- 用多 runtime 把运行位置从“当前笔记本”解耦出来。
这条线如果成立,它就不是“会很多功能”,而是“能形成复利”。这才是它今天仍然值得深入写的原因。
Hermes Agent 到底在解决什么问题
1. 解决 agent 每次都像临时工的问题
现在很多 agent 的核心问题不是不会干活,而是每次都像第一次上班。
你今天花很多时间把项目背景、偏好、约束、工作方式喂给它,下一次会话又得重来;今天排查出的坑点,下次还会再踩;今天整理出的高价值流程,不会自动变成团队资产。
Hermes 明确试图解决这个问题。它强调 persistent memory、cross-session recall、user modeling、skills self-improve,本质是在回答:
agent 怎样才能不是“一次性回答器”,而是“能越用越贴近环境的执行系统”。
这件事的工程价值远高于一次回答质量。因为真实成本往往不在 token,而在于上下文重建、流程重复教学和经验无法复用。
2. 解决“会用工具”不等于“会形成能力”的问题
过去很多 agent 框架把重点放在 tool use:shell、browser、MCP、API、文件系统。Hermes 当然也支持这类能力,但它更进一步,把重点压在 skills 和 learning loop 上。
这背后的判断很对:
- 工具调用解决的是“能做一步”;
- 技能沉淀解决的是“下次能不能更稳、更快、更少上下文地做”。
如果一个 agent 每次都能调同样的工具,但永远不能把高价值路径沉淀成技能,那它只是会重复劳动;如果能把经验逐渐压缩成技能,它才开始接近真正的能力复利系统。
3. 解决 agent 只能活在终端里的问题
CLI 很重要,但真实工作流不会永远发生在终端前。大量高价值任务天然适合异步和消息驱动:
- 每日情报汇总;
- 巡检与备份;
- 文档更新;
- 代码扫描;
- 定时提醒;
- 长任务完成回传。
Hermes 把 messaging gateway 和 cron 都放在核心位置,这说明它不是把 agent 当本地命令行玩具,而是当作一个 可被触发、可持续运行、可主动回传结果 的系统实体。
这条路线,我认为比“会不会更多 planning prompt”重要得多。
核心架构 / 思路:它真正像什么
基于 README、文档目录和公开描述,我现在更倾向于把 Hermes 理解成下面这类系统:
一个以大模型为认知核心、以工具系统为行动层、以 memory / skills 为长期资产层、以 gateway / cron 为触发与交付层的 Agent OS。
这个理解里,最值得看的不是某一个单点功能,而是它把几个常见断点连起来了。
1. 统一入口,不等于单一入口
很多 agent 系统的问题在于:CLI 一套、消息平台一套、自动任务又一套,入口很多,但能力并不共享。Hermes 的价值在于它试图让不同入口共用一套能力层。
这意味着:
- 你在 CLI 中形成的习惯,不必完全丢失到消息平台;
- 你在消息平台里触发的任务,不必脱离同一套工具、技能、记忆体系;
- cron 不是外挂,而是同一 agent runtime 的定时触发器。
这个统一能力层很关键。因为一旦入口碎片化,长期记忆和技能沉淀都会失效。
2. 把 memory 和 skills 放在系统中心,而不是可选插件
很多产品也会说自己“支持记忆”“支持技能”,但往往只是附属功能。Hermes 不一样,它在 README 中把 learning loop、skills self-improve、session recall 写得非常靠前,说明作者把它们当系统核心而不是装饰件。
这件事的重要性在于:只要你把 agent 看作长期运行系统,memory 和 skills 就不是优化项,而是主结构。
没有 memory,agent 每次都要重建世界。 没有 skills,agent 每次都要重复思考过程。 没有二者联动,就谈不上自我改进闭环。
3. cron + gateway + subagents 形成“长期运行”最小闭环
我认为 Hermes 这次最值得重看的,是它把三件事放在了一起:
- gateway:解决“从哪里触发、结果回哪里”;
- cron:解决“什么时候自动发生”;
- subagents:解决“复杂任务如何并行拆解”。
很多 agent 项目只做其中一个点。Hermes 同时做这三个点,意味着它关注的是:
agent 不只是能回答,而是能被调度、能被交付、能处理较长链路任务。
这比单轮 benchmark 漂亮更接近真实使用场景。
4. 多 runtime 是它最容易被低估的价值点
README 里提到多种 terminal backend、本地 / Docker / SSH / serverless 等运行方式。这个点不如“自我改进”听起来性感,但工程上很重要。
因为很多 agent demo 的隐藏前提是:
- 用户必须守在当前机器上;
- 环境必须已经准备好;
- 长任务就在当前会话里等;
- 运行位置和消息入口强耦合。
一旦进入真实生产环境,这些假设都会出问题。Hermes 试图把 agent 从“我的当前终端会话”提升为“一个可迁移、可驻留、可唤醒的运行实体”。这一步非常关键。
为什么现在值得看
第一,它代表了 agent 方向从“会做事”转向“能长期工作”
过去 agent 竞争的主轴是:
- 谁会更多工具;
- 谁更会规划;
- 谁的 demo 更完整。
现在更现实的问题变成:
- 谁能跨会话保留有效上下文;
- 谁能把经验沉淀成资产;
- 谁能被计划任务驱动;
- 谁能通过消息平台持续协作;
- 谁能在不同运行环境里稳定活着。
Hermes 恰好踩在这条转向上。所以它今天的热度,不只是流量事件,也可能反映出大家开始更关注“长期运行 agent system”这条线。
第二,它对 agent / LLM workflow 的代表性很强
Hermes 不是只服务某一个狭窄场景。它涉及:
- agent orchestration;
- tool use;
- memory;
- skills;
- messaging;
- automation;
- subagent parallelization。
这使它成为观察下一阶段 agent 基础设施的一个很好的窗口。你不一定要直接采用 Hermes,但你很难忽略它所代表的那类设计选择。
第三,它有足够公开信息支撑工程判断
它的 README 和文档公开信息已经足够多,至少可以支持我们判断:作者不是在做单一功能 demo,而是在认真搭一个完整系统。即便其中很多能力还需要继续验证,信息透明度本身就高于大量只会讲故事的项目。
真正要验证什么
如果接下来要认真跟踪 Hermes,我认为重点不该是“它功能多不多”,而是下面这几件事。
1. learning loop 是否可控
“自我改进”四个字很容易吸引人,但也是最容易失控的地方。
真正有价值的 learning loop,应该是:
- 能沉淀有效技能;
- 能被人审计和修正;
- 不会把偶然成功路径固化成坏习惯;
- 不会在长期运行中产生不可解释漂移。
如果做不到这些,自我改进就可能从卖点变成风险。
2. 复杂系统的可调试性是否足够强
Hermes 这种系统只要出问题,问题不会只在一个点上,可能横跨:
- 模型调用;
- 工具执行;
- 记忆读写;
- 技能加载;
- cron 触发;
- gateway 投递;
- subagent 并行。
所以真正决定上限的,不只是功能,而是出问题后能不能快速定位。一个长期运行系统如果不可诊断,规模越大越痛苦。
3. 技能沉淀是否真的有复利
技能系统最大的陷阱是表面上看起来很强,实际只是在堆积 prompt 模板。真正有价值的 skill,应该能降低未来任务的上下文成本、减少重复错误、提高可复用性。
Hermes 后续最值得观察的是:它的 skills 是不是越用越像“可复用过程资产”,而不是越积越多的历史包袱。
4. 多平台 / 多 runtime 体验是否一致
支持很多入口不难,难的是不同入口下的行为一致性和心智连续性。如果 CLI 好用、消息平台却很割裂,或者本地稳定、远程 runtime 很脆,那整体价值会被明显打折。
风险点:这类项目最容易高估什么
风险一:功能面越宽,越容易把复杂度转嫁给用户
Hermes 把记忆、技能、cron、gateway、subagent、runtime 都放进来了,这固然完整,但也意味着配置、调试、治理成本都可能上升。
一个系统的“全能”如果最终表现为“用户需要理解很多内部结构才能稳定使用”,那它的采用门槛会很高。
风险二:记忆与技能的质量控制非常难
长期记忆不等于长期价值,自动技能生成也不等于自动进步。劣质记忆会污染后续判断,劣质技能会扩大错误影响范围。这类问题短期不一定暴露,但长期会很伤系统可信度。
风险三:系统叙事容易大于单点体验
Hermes 的系统叙事很强,这本身没问题。但真正决定产品命运的,最后还是具体体验:
- 新用户是否能装起来;
- 常用链路是否低摩擦;
- 权限边界是否清楚;
- 长任务是否稳定;
- 出错时是否容易恢复。
系统故事讲得越大,用户对这些基础体验的容忍度反而越低。
对工程团队最值得借鉴的部分
即便今天不直接采用 Hermes,我认为它至少提供了四个很值得借鉴的工程思路。
1. 别把 agent 只当聊天壳
真正有价值的 agent 系统,一定要考虑入口、调度、状态、回传,而不是只优化单轮回答。
2. 把长期资产层单独设计出来
memory 和 skills 不是锦上添花,而是长期运行 agent 的资产层。没有这层,就没有复利。
3. 让自动化与消息回流天然打通
能自动执行但不能自然回传结果,价值会大打折扣。长期任务、巡检、日报、异步执行,本质上都需要“触发—执行—投递”闭环。
4. 并行不是额外优化,而是复杂任务的常态能力
只要任务链稍长,subagent / delegation 很快就会变成必要能力,而不是高级功能。Hermes 至少在架构叙事上承认了这一点。
总结
这次再看 Hermes Agent,我的判断比第一次更明确了:
它最值得看的不是某个单点能力,而是它正在尝试把 agent 做成一个可长期运行、可跨入口触发、可积累经验、可调度执行的系统。
这条路线风险很高,因为复杂度天然不低;但方向也是对的,因为 agent 真要进入日常工作,迟早都得面对这些问题,而不是永远停留在单次 prompt 成功率上。
所以今天如果要我给一句工程判断,我会这么说:
Hermes Agent 不是“又一个会调工具的 agent 框架”,而是在认真争夺下一阶段 agent 基础设施的定义权。
它还远没到可以闭眼吹的程度,但已经足够值得持续跟踪。
信息来源说明
本文基于 2026-04-12 可见的 GitHub Trending 页面、Hermes Agent GitHub 仓库 README、以及项目公开文档页面整理。文中关于价值、风险、适用性的判断属于我的工程判断,不等同于项目方官方承诺。