我用Hermes Agent一个月了——这匹"马"真的在变聪明
摘要: Hermes Agent是Nous Research开源的自进化AI智能体,2026年2月发布后两个月GitHub Stars突破4.8万。与普通聊天机器人不同,它的核心是"持久记忆+技能自动积累"——用得越久,它越懂你。本文基于一个月深度使用,拆解三层记忆系统、技能自进化闭环、多平台网关,以及那些真正好用的场景和踩过的坑。
普通AI是金鱼记忆,Hermes是养了一只会记住你的猫。
为什么选Hermes?不是又一个聊天机器人
2026年的AI Agent赛道已经卷到天际,从AutoGPT到OpenClaw到各种Code Agent,每月都有新玩家入场。但大多数Agent有个共同的致命问题:金鱼记忆。每次会话独立,上下文窗口一关,之前的交互就消失了。你昨天教它的东西,今天它全忘了。
Hermes Agent试图从根本上解决这个问题。它不做"又一个能跑工具的Agent",而是认真把记忆、反思、沉淀、复用做成长期协作能力。名字源于古希腊神话的赫尔墨斯,社区给它起了个接地气的昵称——"爱马仕"。
核心卖点只有两条:持久记忆和技能自动积累。用得越久,它越懂你,重复性任务的执行效率越高。开源免费(MIT协议),可以自由部署、修改甚至商用。
背后的团队Nous Research虽然在大众知名度上不如OpenAI,但在开源圈子里积累了不俗口碑。他们家的模型系列Hermes、Nomos、Psyche在特定领域口碑不错,尤其是对中文和代码的理解能力。选择MIT协议开源,意味着你不仅免费用,还能拿去商用——这是很多企业级Agent做不到的开放度。
从架构上看,Hermes跟传统ChatBot最大的区别在于:它不是"问答式"的,而是"协作式"的。问答式的AI,你问一句它答一句,上下文只在这个窗口内有效;协作式的AI,你跟它建立的是长期工作关系,它会记住你的偏好、学习你的工作方式、积累你的项目知识。这就像临时工和长期员工的区别——临时工每次都要重新交代,长期员工已经知道你的习惯。

三层记忆系统:不只是记住,是会回忆
Hermes的记忆不是简单的"存对话",而是分了三层:
第一层:工作记忆(Working Memory)——当前会话的上下文,跟普通ChatBot一样。关了就没了,但会触发提取。
第二层:长期记忆(Long-term Memory)——用SQLite数据库存所有历史对话,加上全文检索。每次新对话开始,Hermes会自动从长期记忆中检索相关内容,加载到工作记忆里。你不用重新解释"我的项目用的是Vue3加TypeScript",它会自动读取之前的记忆。
第三层:反思记忆(Reflective Memory)——这是最独特的一层。Hermes会定期对历史对话进行反思,提取出模式、偏好和经验教训,形成更高层次的抽象。比如你连续三次让它在代码审查中关注性能而非规范,它会在反思记忆中记录"这个用户偏好性能优化",以后默认按这个方向工作。
实际体验:记忆检索有时不太准,尤其是当你同时有好几个项目在推进时,它会偶尔搞混上下文。但整体来说,比每次从零开始的体验好太多了。记忆文件本身是可见的,你可以手动编辑修正——这个设计很务实。AI的记忆不一定百分百准确,有时候需要人工介入修正,Hermes把记忆文件做成了可读可编辑的,等于给了你一把钥匙。
一个有意思的细节:Hermes的记忆提取不是简单的关键词匹配,而是用大模型做摘要后再存储。这意味着它存的是"你关心性能优化"这样的抽象结论,而不是"你说过'性能很重要'"这样的原始记录。抽象层级更高,检索效率也更高。代价是有时会丢失细节——比如你可能说的是"数据库查询性能",它抽象成了"性能优化",下次你问前端渲染性能时它也会加载相关的数据库记忆,这就产生了噪音。
技能自进化:用一次,记住一辈子
这是Hermes最独特的设计。当一个工作流经过验证(调用工具5次以上),Hermes会自动将整个解决过程做成一个Markdown格式的Skill文件。下次遇到类似需求,直接加载技能,跳过试错环节。
举一个具体例子:搭建GitHub Actions CI流水线。第一次让Hermes做,它经历了搜索文档、编写YAML、调试权限报错、最终跑通的全过程,耗时约15分钟。完成后,它自动将整个流程抽象成一个名为github-actions-ci-setup的技能文件。
第二次遇到类似需求时,它直接加载这份技能,3分钟搞定。社区有用户报告在重复性开发任务上获得约40%的效率提升,从我自己的体感来看,对高重复度任务这个数字是可信的。
更有意思的是,后续使用中如果发现了更好的路径,Hermes会更新技能文档。这不是静态的知识库,而是一个会自我迭代的知识体系。
适合的子场景:固定格式的代码Review模板、每周定时跑的数据处理脚本、部署流程标准化。
不适合的子场景:完全不重复的一次性任务——技能库会增长但几乎不被复用,效果有限。
还有一个容易被忽视的细节:技能文件的命名。Hermes会根据任务内容自动生成技能名,但如果相似任务用了不同的命名约定,技能可能不会被有效复用。我现在的习惯是每月做一次技能库整理——合并相似的、归档不常用的、删除过时的。这就像整理书架,虽然花时间,但能让下次找东西更快。
技能系统的另一个亮点是"渐进式优化"。第一次创建的技能可能不够完美,但随着你反复使用和修正,技能文档会变得越来越精炼。Hermes会在每次使用后自动评估技能的执行效果,如果发现更好的实现路径,会更新技能文档。这种"用中学"的机制,让技能库成为一个有机生长的知识体系,而不是一个僵化的规则集合。
多平台网关:Telegram、Discord、终端,一个Agent管全部
Hermes支持6种执行环境:终端CLI、Telegram、Discord、Web UI、Slack、API。每个平台可以独立配置工具权限。
我最常用的组合是终端CLI写代码+Telegram接收定时任务通知。在终端里,hermes命令启动会话;在Telegram里,@HermesBot随时接收结果。两个入口共享同一个记忆系统和技能库,切换无缝。
安全设计到位:危险操作会触发人工审批,还做了容器隔离和上下文扫描。这比依赖大模型本身判断能力来规避风险的方案更靠谱——框架层面的安全防护,不依赖模型的"自觉"。
24小时定时任务:真正的7×24助手
Hermes内置cronjob工具,可以设置定时任务。比如每天早上8点检查GitHub仓库的PR状态、每周一生成周报草稿、每小时检查服务器日志是否有异常。
这跟铠盒A1的7×24小时运行理念天然契合——一个不关机的小设备跑着Hermes Agent,定时任务永远在线。你睡觉的时候,它在干活。
踩坑记录:不完美的体验
坑1:小模型驱动效果差。 Hermes是模型无关的,可以用任何OpenAI兼容API。但如果用4B以下的小模型,记忆检索和技能创建的质量会明显下降。建议至少用DeepSeek-V3或Claude Sonnet级别。
坑2:记忆检索有时不太准。 同时推进多个项目时,上下文会搞混。需要手动在记忆文件中标注项目边界。
坑3:Gateway连接Telegram有时超时。 网络不稳定时,Telegram Bot的响应可能延迟数分钟。建议用Webhook模式替代长轮询。
与OpenClaw的对比:互补大于竞争
Hermes和OpenClaw是两种思路:OpenClaw是"全能网关",强调平台接入和工具编排;Hermes是"自进化Agent",强调记忆和技能积累。
如果你需要多平台内容分发、定时任务调度、团队协作,OpenClaw更合适。如果你需要一个越用越懂你的个人AI助手,Hermes更强。两者可以组合使用——OpenClaw负责执行和调度,Hermes负责学习和积累。比如在我自己的工作流里,Hermes负责学习我的写作偏好和积累内容生产技能,OpenClaw负责实际的发布调度和平台分发。两个系统各司其职,效率比单用任何一个都高。
从技术架构角度,Hermes的核心优势在于"学习闭环":任务执行→经验沉淀→技能创建→技能复用→效果验证→技能优化。这个闭环让Hermes不是一个静态工具,而是一个持续成长的系统。OpenClaw的核心优势在于"执行闭环":配置→触发→执行→验证→通知。两个闭环叠加,就是一个完整的"学习+执行"双闭环。
总结:给愿意长期投入的人
用了一个月的结论:Hermes不是给偶尔问问AI的人准备的,它是给愿意把AI当长期基础设施来运营的人准备的。前两周你可能感觉不到明显差异,但到第三周开始,当你发现之前教过它的东西它真的记住了、技能库开始自动复用时,那种"这东西在成长"的感觉很奇妙。
就像养一匹马——刚领回来需要磨合,但骑久了,它会懂你的节奏。
写在最后:Hermes对AI Agent行业的意义
从更大的视角看,Hermes代表了一种新的AI Agent哲学:不是让AI更聪明地执行单个任务,而是让AI更持久地陪伴你完成长期工作。这个思路跟"一次性问答"的ChatBot模式根本不同。
2026年,AI Agent赛道正在从"能跑工具"向"能长期协作"演进。Hermes的三层记忆+技能自进化,为这个行业提供了一个重要的参考架构。未来可能会有更多Agent采用类似设计——毕竟,谁不想拥有一个越用越懂自己的AI助手呢?
而像铠盒A1这样的7×24小时智能体计算机,正是运行Hermes这类Agent的理想载体。低功耗、永远在线、与主力机物理隔离——Hermes的记忆系统和定时任务在这些设备上能发挥最大价值。
铠盒智能 | 小白也可以使用的7×24小时工作的智能体计算机 · Hermes专区追踪