
在 AI Agent 领域,OpenClaw 是一个值得深入研究的开源项目。它的核心价值不仅在于功能本身,更在于其架构设计清晰地展示了现代 AI 代理的工作模式。本文将从技术架构角度,深入解析 OpenClaw 的核心原理。
一、OpenClaw 是什么
OpenClaw 是一个开源的本地 AI 代理框架,它不是简单的聊天机器人包装,而是一个完整的 AI 代理操作系统。
与传统 AI 工具不同,OpenClaw 强调三个核心特性:
本地优先(Local-first)。 所有数据存储和执行都发生在用户自己的设备上,赋予用户对隐私的完全控制权。这意味着你的聊天记录、任务历史都留在自己家里,不用担心被上传到第三方服务器。
主动执行(Proactive)。 它不只等待用户命令,而是持续运行,主动监控任务状态并在必要时采取行动。就像一个尽职的助手,不会所有事都等你开口。
持久记忆(Persistent Memory)。 它能记住偏好、历史项目和上下文,实现跨会话的连续性。第二天回来,它还记得昨天的工作进展。
二、整体架构

OpenClaw 采用经典的 Hub-and-Spoke 架构,以 Gateway 为核心:
用户输入(WhatsApp/iMessage/Slack/网页) → Gateway → Agent Runtime → 工具层
1. Gateway(网关)
Gateway 是一个运行在本地的 WebSocket 服务器,充当控制平面。它连接各种消息平台和控制界面,将每个路由的消息分发给 Agent Runtime。
你可以把它理解为一个翻译官:一边连着微信、Slack、Telegram 这些聊天工具,另一边连着 AI 大脑和执行工具。
关键点:Gateway 旨在本地访问或通过安全隧道访问,不应该直接暴露到互联网。这是安全的基础。
2. Agent Runtime(代理运行时)
Agent Runtime 是 AI 循环的核心端到端运行组件。它负责:
- 从会话历史和内存中组装上下文
- 调用 AI 模型
- 针对系统可用能力执行工具调用
- 持久化更新状态
简单说,这就是 OpenClaw 的"大脑",处理从接收到思考到执行的全部流程。
三、Agentic Loop(代理循环)

这是 OpenClaw 的核心,也是所有 AI Agent 的核心概念。
官方文档描述为:
An agentic loop is the full run of an agent: intake > context assembly > model inference > tool execution > streaming replies > persistence.
翻译过来就是:摄入 → 上下文组装 → 模型推理 → 工具执行 → 流式响应 → 持久化
这个循环不断重复,AI 就在这个循环中不停工作。
1. Context Assembly(上下文组装)
这是最容易被忽视、却最重要的步骤。
在模型看到用户消息之前,代理运行时已经组装好了一个"上下文包"。根据官方文档,系统提示由四部分构建:
- Base prompt - 代理始终遵循的核心指令(相当于"价值观")
- Skills prompt - 可用技能的紧凑列表(相当于"能力清单")
- Bootstrap context files - 提供环境级上下文的工作区文件(相当于"工作手册")
- Per-run overrides - 特定运行注入的额外指令(相当于"本次任务说明")
关键洞察: 模型没有眼睛,它只能看到你放进上下文窗口的内容。上下文组装不是可以跳过的预处理步骤,而是任何代理系统中最重要工程决策——模型知道什么、相信什么、能做什么,都在这个阶段决定。
2. Model Inference(模型推理)
模型接收上下文包后,开始推理。它不只生成文本,而是决定:
- 用户真正想要什么
- 需要调用哪些工具
- 如何处理工具返回的结果
这就好像一个项目经理,不只是执行命令,还会思考"接下来该做什么"。
3. Tool Execution(工具执行)
当模型决定需要工具时,它会生成工具调用请求。工具层执行实际动作,比如:
- 浏览器自动化(打开网页、点击按钮)
- 文件操作(读取、写入)
- Canvas 控制
- 计划任务执行
4. Persistence(持久化)
执行完成后,代理更新状态,包括:
- 对话历史
- 记忆文件
- 会话变量
这一步保证了下一个循环开始时,AI 还记得之前发生了什么。
四、Skills(技能系统)
Skills 是 OpenClaw 扩展能力的核心机制。它们实际上是可执行代码和配置的包,一旦启用就能与本地文件系统、网络和连接服务交互。
技能的工作方式
当代理需要特定能力时,它会加载相应的技能。每个技能包含:
- 工具定义(有哪些功能)
- 提示模板(怎么调用)
- 执行逻辑(怎么实现)
你可以理解为:技能就是给 AI 装上的"app",让它能处理各种具体任务。
安全考量
由于技能本质上是可以访问文件系统或网络的可执行代码,这里有安全隐患:
- 安装恶意技能 = 授予恶意权限
- 被注入的危险技能 = 悄咪咪打开后门
安全专家的建议是:只安装可信来源的技能,使用 Docker 隔离运行,实施最小权限原则。
五、Memory System(记忆系统)

OpenClaw 的记忆系统是其区别于传统自动化的关键。它像人脑一样,有多个记忆层级:
工作内存(Working Memory)
- 位于上下文窗口
- 速度快但容量有限
- 存储当前任务正在用的信息
短期记忆(Short-term Memory)
- 追踪最近的交互
- 存储在会话历史中
- 相当于"最近的工作日志"
长期记忆(Long-term Memory)
- 使用向量存储进行语义检索
- 存储用户偏好、历史任务等
- 相当于"知识库"
记忆为什么重要
这使得 OpenClaw 不只是执行单次任务,而是能像真正的助手一样:
- 记住你的偏好("他喜欢简洁的回复")
- 记得之前做到哪("上次处理到第 300 封邮件")
- 理解上下文("这个项目是关于什么的")
传统脚本每次运行都是独立事件,而 OpenClaw 能跨越时间保持连续性。
六、Heartbeat(心跳机制)
这是 OpenClaw 区别于被动响应式 AI 的关键特性。
Heartbeat 本质上是一个定时触发的代理循环:代理不再只响应人类输入,而是被定期"唤醒",让它主动检查任务列表。
这意味着:
- 不用每次都下命令,AI 会自己主动工作
- 可以设置定时任务(每天早上 9 点发送简报)
- 主动监控变化(网站更新了立刻知道)
你可以用它来:发送每日简报、监控网站变化、在你注意到之前发现日历冲突。
七、与传统自动化的区别
| 对比项 | 传统 RPA | OpenClaw |
|---|---|---|
| 控制方式 | 预设脚本,固定流程 | AI 自主决策,灵活应变 |
| 适应性 | 页面改了就失效 | 动态适应变化 |
| 记忆 | 完全没有 | 跨会话持久 |
| 主动性 | 你叫一次动一次 | 主动监控和跟进 |
传统自动化是"写死的剧本",OpenClaw 是"会思考的员工"。
八、安全模型
OpenClaw 的设计带来了一些独特的安全考量,需要认真对待:
本地运行的风险 - 代理通常被赋予对终端、文件的广泛访问权限,在某些情况下甚至有 root 级执行权限。这意味着如果出问题,影响会很大。
供应链风险 - 恶意技能(扩展)的分发不得不防。
权限放大 - 一个技能本质上具有文件系统或网络访问权限,安装时要格外小心。
持久记忆 - 跨会话保留上下文虽然强大,但也意味着敏感数据会长期存储。
安全建议
- 在 Docker 容器中运行(隔离)
- 使用独立设备(别在主力机器上裸奔)
- 严格限制技能权限(最小权限原则)
- 避免连接核心系统(别让它碰财务数据)
总结
OpenClaw 的架构代表了现代 AI 代理的典型模式:通过 Gateway 实现统一的接口层,通过 Agentic Loop 实现智能决策,通过 Skills 实现可扩展能力,通过 Memory 实现持久性。
理解 OpenClaw 的工作原理,不仅能帮助我们更好地使用这个工具,更能理解 AI Agent 的一般设计模式。