📄

Request My Resume

Thank you for your interest! To receive my resume, please reach out to me through any of the following channels:

Codex 用户到底要不要迁移到 Hermes?我和 GPT 最强的 5.4 Pro 深聊的结论也许能帮你决策

如果你现在已经用 Codex 把自己的 coding agent、定时任务、内容生产、浏览器自动化、脚本流水线都跑起来了,我目前的判断很明确:我暂时不会急着迁到 Hermes。

注意,我说的是暂缓迁移,继续观察。这里面差别很大。

这两天 Hermes 很火,各种群里、自媒体里都有人聊。说它是开源智能体,说它有长期记忆,说它能自学习,说它能跑 gateway、cron、browser、profile,还能多渠道接 Slack、Telegram、Email、微信企业号之类的入口。听起来是不是很像一个更接近“数字员工”的东西?

说实话,我也有点兴奋。

我一直对这种长期运行的 agent runtime 有兴趣。一个东西从聊天框往外长,开始认真处理记忆、调度、浏览器、消息入口、任务隔离这些很脏很现实的问题,它就已经不只是新玩具了。

但兴奋归兴奋,迁移是另一回事。

我昨天把这个问题丢给ChatGPT,并且每轮对话都使用了目前最强的 GPT 5.4 Pro 深聊了好几轮。每轮他都推理思考 10 多分钟给出的答案。为什么要特意说 5.4 Pro?毕竟我想在我认知范围内得到相对最全面最可信的答案。 主要是这类问题需要它在产品形态、工程边界、运营自动化和长期维护成本之间来回拉扯。普通回答很容易变成“Codex 适合写代码,Hermes 适合长期智能体,所以建议混合使用”这种正确废话。

我想要的是更硬一点的答案。

我真正想问的是:如果我现在已经主要靠 Codex 在跑一堆智能体和运营任务,我到底有没有必要为了 Hermes 把原来的体系迁过去?

我第一句问得也很直接:

“我目前主要智能体都是使用 Codex,请问我是否有必要迁移到 Hermes,目前最火的那个 GitHub 上的开源智能体?”

GPT 5.4 Pro 一开始给我的答案,是一个很稳的中间判断:没有强必要现在就把现有 Codex 智能体全量迁到 Hermes。更合理的路线,是继续让 Codex 做主力编码执行器,只在确实需要长期记忆、跨渠道入口、定时任务、常驻远程机或多模型切换的场景里,增量引入 Hermes。

这句话单独看没毛病,但它还不够。

因为对我这种人来说,问题从来不止是“理论上 Hermes 有什么能力”。我真正关心的是,我手上那摊活,值不值得为了它多引入一层系统复杂度。

我现在手里还有一堆代码之外的活。

我还有每日 Outreach 50 封邮件,每日博客文章更新 CMS,自动化网站运营,Remotion 视频制作,公众号文章创作、排版、上传。这些东西以前很多也是 Codex 在帮我跑。你要劝我迁 Hermes,不能只说它更像长期运行的 agent runtime,你得告诉我它到底能不能让这些活变得更稳、更省、更少返工。

所以我继续追问。

GPT 给了一个任务级判断表,大概是这样:每日 Outreach,继续纯 Codex;每日博客更新 CMS,以 Codex 为主,只有后台很浏览器化时才混合;自动化网站运营,最适合 Codex + Hermes 混合;Remotion 视频制作,继续纯 Codex;公众号创作、排版、上传,Codex 主导,必要时混合;现在全量迁到 Hermes,不建议。

聊天记录摘录:任务拆分判断

这个表已经开始接近我想要的答案了。

它把 Hermes 从“你不用就落后”的新平台,拆回了具体工作流。

聊天记录摘录:实战判定表

Outreach 50 封邮件,真正难的是名单质量、个性化 opening、发送策略、合规、回执,还有你最后那轮人工审核。Hermes 就算能常驻调度,也不会突然让你的邮件质量更高。它最多帮你把异常提醒发到某个渠道里。这件事用 Codex 继续做就很好,没必要为了一个值班壳迁移。

Remotion 更不用说。

Remotion 视频制作说到底是代码库、素材、时间线、构建、渲染、报错排查、浏览器预览这些工程问题。这个场景里 Codex 很对口。你把它迁到 Hermes,不会让视频突然更好看,反而可能多一层调度、权限、路径、环境变量的复杂性。

公众号文章创作、排版、上传也是类似。创作、改写、Markdown 转 HTML、封面提示词、配图清单、样式模板,这些 Codex 已经很顺。只有最后一步特别依赖网页登录态、浏览器后台、人工抽查、跨渠道回执时,Hermes 才可能有点价值。注意,是有点价值,不是必须迁移。

这时候文章差点就可以结束了。

但我又觉得不对。

因为 GPT 的这个答案里面,还有一个常见的“新工具推荐陷阱”。它说 Hermes 可以做常驻调度和通知。可我马上意识到,这个理由其实很弱。

我反问它:

“如果最终这些任务都还是需要我作为真人来审计,我审计 Hermes 的通知汇报和我直接用 Codex 的日常定时任务汇报有什么区别?或者说有什么优势,价值,是让我值得从 Codex 迁移的?”

聊天记录摘录:真正把问题问尖的地方

这个问题才是整段聊天的关键。

很多人看新工具时,最容易被“它能自动跑”“它能通知我”“它能接很多渠道”吸引。但如果你认真做过运营自动化,就会知道,通知本身不等于价值。通知只是把问题送到你面前。

真正花时间的是你要判断它做得对不对,内容能不能发,邮件会不会冒犯客户,CMS 页面有没有坏,视频有没有渲染错,公众号排版有没有阴间错位,浏览器有没有误点。只要这些环节最后还要你审,Hermes 发来的通知和 Codex 发来的通知,差异就没那么大。

GPT 5.4 Pro 在这一轮被我追问以后,答案明显收紧了。它说得很直接:

如果你已经把 Codex 的定时任务、通知回传、浏览器自动化都跑顺了,并且最终仍然要你本人审计后再发送或发布,那么单纯为了“常驻调度和通知”去迁到 Hermes,大概率不值。

这句我觉得很重要。

因为它把 Hermes 从“新一代智能体”的光环里拽了下来,回到了一个很土的问题:它到底有没有减少你的真实负担?

说人话,如果 Hermes 只是帮你把同一份审稿材料从另一个渠道发给你,那它不叫迁移价值。它叫换个地方看通知。

这就没什么意思了。

当然,Hermes 仍然有价值。

我和 GPT 继续往下拆,最后基本确认了一件事:Hermes 真正值得关注的地方,不该放在“它比 Codex 更会写代码”,也不该放在“它比 Codex 更会创作公众号文章”,更值得看的是它像一个长期在线的 ops runtime。

这个词听起来有点抽象,我翻译一下。

Codex 更像一个很强的工人。你给它一个 repo,一个任务,一个脚本,一个报错,它能进去改、跑、测、修、解释、总结。

Hermes 更像一个值班长。它更关心的是这个 agent 能不能长期挂着,能不能接外部消息,能不能收 webhook,能不能按 profile 隔离不同项目,能不能把跨会话信息检索回来,能不能把结果发到 Slack、Telegram、Email 这类渠道,能不能把浏览器、cron、memory 和 API server 做成一个比较完整的运行时。

所以整件事的判断关键,不该卡在“Codex 和 Hermes 谁更强”。更现实的问法是:你现在缺的是工人,还是值班长?

Codex 和 Hermes 的分层关系信息图

如果你缺的是工人,继续用 Codex。如果你缺的是值班长,Hermes 才开始有意义。

这也是为什么在那张任务表里,唯一真正值得认真考虑混合架构的是“自动化网站运营”。

网站运营这件事,很容易从一个简单的定时任务,长成一个持续在线的运营系统。

比如你要监控定价页、套餐页、落地页、竞争对手页面、活动页、表单页有没有变化。单次抓页面不难,Codex 写个脚本就能做。难的是变化来了以后,谁来判断这次变化是不是值得打扰你?谁来静默无价值变化?谁来把有价值的变化投递到固定渠道?谁来把每次结果留痕,方便你回头查?

这时候 Hermes 的味道就出来了。

它的优势未必是抓页面更厉害,更像是把“抓取、对比、判断、静默、通知、审计落盘”这条链做成了一个长期运行的模式。

再比如 webhook。一个部署事件来了,一个 Stripe 支付异常来了,一个 GitHub PR 来了,一个工单系统来了,一个表单异常来了。Codex 当然可以处理,但你大概率要自己搭一层接收、路由、触发、通知的服务化壳子。

Hermes 在这里就更像现成的值班台。它的价值落在运行时:外部事件一进来,它能先替你做一轮理解、分诊、草稿和投递。也就是说,你可以让Hermes 来接收信息,并通过codex skill 去安排codex 执行工作。它更像个值班经理。

还有浏览器。

我当时也追问 GPT:浏览器这块 Hermes 到底有什么 Codex 做不到的?因为我现在用 Codex 调度 Agent Browser、Playwright CLI/MCP,甚至 Atlas 浏览器的 Agent 模式,也能完成很多浏览器自动化。

GPT 的回答我觉得也比较诚实。绝对意义上的“做不到”,它不认。

也就是说,Hermes 在浏览器上没有出现一个 Codex 完全碰不到的神秘能力。Codex + Agent Browser / Playwright / MCP 这条路,本来就是正路。

Hermes 的差别主要是集成形态。

它把 Browserbase、Browser Use、本地 Chrome/CDP、Firecrawl、Camofox、本地 agent-browser 这类东西做成统一 browser layer,还会更重视会话录制、持久浏览器 session、反爬、代理、验证码、任务级隔离这些运营里很脏的需求。

对你自己的站、标准后台、普通 Playwright 流程来说,这不一定是质变。但如果你真的在做很多登录态后台巡检、广告后台、联盟后台、竞争对手页面抓取、账号环境复杂的网页操作,Hermes 的 browser runtime 会更像一个“运营用浏览器自动化底座”。尤其是会话录制,对人工审计有价值。你不只是看它说自己做了什么,你还能回看它到底点了什么。

这就是 Hermes 可能比 Codex 更舒服的地方。

重点落在开箱形态和运行时体验。

但你看,聊到这里,结论其实更克制了。Hermes 并不适合拿来直接替代 Codex。它更适合托管你已经打磨好的运营流程。

生产和修理这些流程,依然更像 Codex 的主场。

这一点甚至从 Hermes 自己的设计里也能看出来。它自己就有把编程任务委托给 Codex CLI 的方向。这个信号很清楚:Hermes 更像上层 runtime,Codex 更像强执行器。

所以我后来把这件事压成一句话:

Codex 继续当工人,Hermes 最多当值班长。

聊天记录摘录:Codex 继续当工人,Hermes 最多当值班长

这个判断对我很有帮助。

因为它避免了一个很常见的 AI 工具误区:把“新增一层能力”误读成“必须替换原有系统”。很多时候,工具升级更像分工变化。

你原来有一个很能打的工人,现在来了一个看起来很适合做值班长的角色。你不需要把工人开了,然后让值班长亲自去拧每一颗螺丝。你要问的是:我现在这摊活,真的需要一个值班长吗?

如果不需要,那就别请。

请了也只是多一个人开会。

另一个很关键的问题,是所谓的“自进化”。

Hermes 这类产品最容易打动人的地方,就是它会记忆,会学习,会沉淀 skills,听起来像一个越用越懂你的长期伙伴。

这当然很迷人。但我问 GPT 5.4 Pro 的第三个问题也很尖锐:所谓自进化的能力,会不会因为信息熵增最后变得混乱?

它的回答是:会。

而且我同意。

很多人把 agent 的“自进化”想象成它会越跑越聪明,越跑越懂你,越跑越像一个可靠员工。但实际在工程和运营里,长期记忆不是越多越好。很多时候,记忆越多,污染越多;总结越多,偏见越多;自动生成的 skill 越多,过时流程越多。

所谓进化,如果没有治理,很快就会变成上下文垃圾场。

聊天记录摘录:自进化不能神化

这个问题 Hermes 逃不掉,其他系统也逃不掉。只要你允许任何 agent 自动写长期记忆、自动总结你、自动沉淀流程、自动改 skill,它都会遇到同样的熵增风险。区别只是 Hermes 把这件事做成了更正式的产品能力,所以你更需要给它立规矩。

我的理解是,真正可用的“自进化”应该拆三层。

一层是 memory,只放长期稳定事实,比如某个站点的部署位置、后台登录约束、固定操作禁区、你的审稿偏好。它不能变成流水账。

一层是 session / log / search,所有长尾历史、一次性故障、临时讨论、某次活动里的例外,都应该留在日志和可检索会话里,不要塞进当前记忆。

一层是 skills,只有当一个流程被反复验证、足够稳定、确实会重复出现,才值得升格成 skill。并且在生产环境里,最好不要让 agent 静默自动覆盖关键 skill。它可以建议更新,但最终你要知道它改了什么。

这其实和做内容、做 SEO、做自动化很像。积累不会自动变强,你要能分类、能过期、能删除、能隔离。不然所有“长期记忆”最后都会变成长期负担。

智能体自进化和长期记忆治理信息图

聊到部署时,我也问了一个很现实的问题:如果增量用 Hermes,要不要单独搞一台 Mac mini?

GPT 的判断是,先不用。这一点我也认同。

验证期不要为了 Hermes 立刻上独立机器。先在现有 MacBook 上跑一个小的 ops profile,拿一条真实工作流测试就够了。只有当它真的进入 24/7 常驻、必须长期挂着 gateway、必须依赖本地 Chrome 登录态、你又经常合盖带走电脑时,再考虑专门常开的机器。

甚至不一定非要 Mac mini。

如果任务不依赖本地登录态浏览器,远程机、Docker、SSH、云端沙箱都可能比买一台新机器更理性。

别小看这个部署问题。很多自动化系统的死因往往不是模型能力,而是机器合盖、网络切换、路径变了、环境变量没加载、浏览器登录态过期、后台进程挂了没人知道。

所谓“长期在线”,最后都要回到运维。你如果只是想试试 Hermes,不要上来就把它当生产系统。先让它证明自己。

说到这里,我觉得这篇文章可以收一下了。

如果你是 Codex 用户,现在到底要不要迁移到 Hermes?

我的答案是:大多数人先不用迁。

你现在主要是在 repo 里写代码、修 bug、跑测试、做 review、改自动化脚本,用 Codex 就很好。你现在的运营任务是“定时跑,生成结果,我人工审”,Codex 也很好。你现在的浏览器自动化已经能通过 Codex + Playwright / Agent Browser / MCP / Atlas 跑通,那也不用为了浏览器入口单独迁。

如果你还没有一条高频、长期、跨渠道、事件驱动、需要记忆沉淀的工作流,也不用焦虑。Hermes 对你来说,可能只是一个更高级、也更会烧精力的新玩具。

但反过来,如果你已经有多个网站、多个渠道、多个自动化流程,每天都有部署、支付、表单、内容、工单、竞争对手变化这些事件涌进来;如果你真的需要一个 agent 常驻在线,接 webhook,做初步判断,路由任务,把结果推到固定 home channel;如果你需要把不同站点、不同品牌、不同角色隔离成 profile,避免记忆和上下文互相污染;如果你的网站运营里有大量脏网页、登录态后台、反爬浏览器、会话录制和人工审计回放需求,这时候 Hermes 就开始超出“另一个 agent”的范畴了。

它开始像一个 ops shell。

但即使在这个时候,我也不建议你全量迁移。更稳的做法是:Codex 继续做 worker,Hermes 只做 ops shell。

也就是说,写脚本、修脚本、做内容、调 API、改页面、跑 Remotion、处理 repo,继续交给 Codex。外部事件入口、值班通知、profile 隔离、长期记忆、浏览器 runtime、跨渠道消息,再考虑让 Hermes 接一部分。

所以别把它做成二选一。

这是分层。

我现在越来越觉得,AI 工具选型里最容易犯的错,不一定是选错工具,更多是把所有问题都理解成替换。新工具一火,就问要不要迁移。新模型一出,就问要不要全面切换。新 agent 一爆,就问原来的体系是不是落后了。

但真实业务里,问题可以从“我要不要换掉它”,换成“它应该站在哪一层”。

Hermes 如果站在 Codex 旁边抢工人的活,我觉得没必要。Hermes 如果站在 Codex 上面做值班长,某些网站运营场景里,它开始有意思。

这就是我和 GPT 5.4 Pro 深聊下来,对我最有价值的结论。

别被“长期记忆”“自进化”“开源智能体”“最火 GitHub 项目”这些词带着走。回头看你自己那摊活。

你缺的是一个更强的执行器,还是一个长期在线的运行时?

你是每天让 Codex 稳定产出,然后你审一下就走,还是已经开始被跨渠道事件、后台巡检、页面变化、团队通知、长期记忆这些事情拖住?

前者,继续 Codex。

后者,小范围试 Hermes。

至于全量迁移?

先别急。

成熟的自动化,不靠你换工具有多快。

它看的是,你有没有把那摊活真的压进系统里。

Mr. Guo Logo

© 2026 Mr'Guo

Twitter Github WeChat