Clawdbot 是如何实现永久记忆的?
以下内容参考自《How Clawdbot Remembers Everything》
① 上下文是啥?
我们先来理解模型在每次请求时能看到什么:
[0] 系统提示词(静态指令 + 条件指令)
[1] 项目上下文(引导文件:AGENTS.md、SOUL.md 等)
[2] 对话历史(消息、工具调用、压缩摘要)
[3] 当前消息我直接用一个 “真实 Agent + 真实一次请求”的例子,把这 4 个东西「摊开来看」。
设你做了一个 企业知识助理 Agent,用来帮同事查资料、写方案。
Agent 目录结构大概是这样的:
agent/
├─ AGENTS.md
├─ SOUL.md
├─ memory/
│ └─ user_profile.md
└─ tools/用户这次发来一句话:
“帮我按照我们公司的风格写一份【到店减重管理】的项目介绍。”
下面我们看 模型在“这一轮请求”里到底能看到什么。
[0] 系统提示词(System Prompt)
👉 这是模型的“出厂设定 + 管理员规则”
举例(你一般看不到,但确实存在)
你是一个企业知识助理 Agent
- 语气:专业、偏产品经理风格
- 不允许编造公司内部数据
- 可以调用 search_docs / write_doc 工具📌 特点:
模型本身不可编辑(用户不能改)
每次请求都会带上
决定了:能不能用工具、用什么语气、安全边界
[1] 项目上下文(AGENTS.md / SOUL.md 等)
AGENTS.md 示例
# Agent 角色说明
本 Agent 服务于减重管理业务线。
核心目标:
- 帮助输出项目方案
- 统一公司对外表述口径
写作风格:
- 偏业务汇报
- 避免营销话术SOUL.md 示例
# Agent 性格
- 理性
- 偏工程 + 产品思维
- 结论先行📌 特点:
你可以直接改 Markdown
每次请求都会“原样注入”
不是模型自动生成的
更像是:
Agent 的「人格说明书 + 使用手册」
[2] 对话历史(含压缩摘要)
👉 这是“短期记忆 / 工作记忆”
假设前面对话是:
用户:我们公司主打到店减重管理
Agent:好的,我会以该业务为核心如果对话很长,系统可能变成这样:
【摘要】
用户主要关注到店减重管理项目,目标是对外输出标准化介绍。📌 特点:
来自 真实聊天
会被截断 / 压缩
不稳定(上下文窗口有限)
不是长期可靠的
👉 这一步是“模型能记得,但不保证多久”。
[3] 当前消息
👉 这一轮真正触发推理的输入
帮我按照我们公司的风格写一份【到店减重管理】的项目介绍📌 特点:
最明确
权重最高
没有历史就只能靠它
四者放在一起(一眼看懂版)
你可以把一次请求理解成👇
[系统提示词]
你是谁 + 能干嘛 + 不能干嘛
[项目上下文]
你这个 Agent 是干什么业务的
你应该用什么风格和价值观
[对话历史]
刚才聊到哪了(可能被压缩)
[当前消息]
用户现在要你做什么② 上下文 vs 记忆
上下文是模型在单次请求中能看到的一切:
上下文的特性:
临时的——只存在于本次请求期间
有限的——受限于模型的上下文窗口(例如20万token)
昂贵的——每个token都计入API成本和速度
记忆是存储在磁盘上的内容:
记忆 = MEMORY.md + memory/*.md + 会话转录文件
记忆的特性:
持久的——在重启、日复一日、月复一月后依然存在
无限的——可以无限增长
低成本的——存储不产生API费用
可搜索的——建立索引以支持语义检索
③ 记忆工具
Agent通过两个专用工具来访问记忆:
1. memory_search
用途:在所有文件中查找相关的记忆
{
"name":"memory_search",
"description":"强制性回忆步骤:在回答关于之前工作、决策、日期、人员、偏好或待办事项的问题之前,对MEMORY.md和memory/*.md进行语义搜索",
"parameters":{
"query":"我们对API做了什么决定?",
"maxResults":6,
"minScore":0.35
}
}返回结果:
{
"results":[
{
"path":"memory/2026-01-20.md",
"startLine":45,
"endLine":52,
"score":0.87,
"snippet":"## API 讨论\n决定为了简单起见使用REST而不是GraphQL...",
"source":"memory"
}
],
"provider":"openai",
"model":"text-embedding-3-small"
}2. memory_get
用途:在找到内容后读取具体内容
{
"name":"memory_get",
"description":"在使用memory_search后,从记忆文件中读取特定行",
"parameters":{
"path":"memory/2026-01-20.md",
"from":45,
"lines":15
}
}返回结果:
{
"path": "memory/2026-01-20.md",
"text": "## API 讨论\n\n与团队讨论API架构。\n\n### 决策\n我们选择REST而非GraphQL,原因如下:\n1. 实现更简单\n2. 更好的缓存支持\n3. 团队更熟悉\n\n### 端点\n- GET /users\n- POST /auth/login\n- GET /projects/:id"
}写入记忆
并没有专门的memory_write工具。Agent使用标准的写入和编辑工具来写入记忆——这些工具它本来就在用于处理任何文件。由于记忆就是普通的Markdown,你也可以手动编辑这些文件(它们会被自动重新索引)。
写入位置的决策是通过AGENTS.md中的提示来驱动的:
在预压缩刷新和会话结束时,也会自动进行写入(后续章节会介绍)。
④ 记忆存储
Clawdbot的记忆系统建立在"记忆就是Agent工作空间中的纯Markdown"这一原则之上。
双层记忆系统
记忆位于Agent的工作空间中(默认:~/clawd/):
~/clawd/
├── MEMORY.md - 第二层:长期策划的知识
└── memory/
├── 2026-01-26.md - 第一层:今天的笔记
├── 2026-01-25.md - 昨天的笔记
├── 2026-01-24.md - ...以此类推
└── ...第一层:每日日志(memory/YYYY-MM-DD.md)
这些是仅追加的每日笔记,Agent会在一天中随时写入。当Agent想要记住某事,或被明确告知要记住某事时,就会写入这里。
# 2026-01-26
## 10:30 AM - API 讨论
与用户讨论REST vs GraphQL。决策:为了简单使用REST。
关键端点:/users、/auth、/projects。
## 2:15 PM - 部署
将v2.3.0部署到生产环境。没有问题。
## 4:00 PM - 用户偏好
用户提到他们喜欢TypeScript胜过JavaScript。第二层:长期记忆(MEMORY.md)
这是经过策划的、持久的知识。当发生重大事件、想法、决策、观点和学到的教训时,Agent会写入这里。
# 长期记忆
## 用户偏好
- 喜欢TypeScript胜过JavaScript
- 喜欢简洁的解释
- 正在做"Acme Dashboard"项目
## 重要决策
- 2026-01-15:选择PostgreSQL作为数据库
- 2026-01-20:采用REST而非GraphQL
- 2026-01-26:使用Tailwind CSS进行样式设计
## 关键联系人
- Alice (alice@acme.com) - 设计负责人
- Bob (bob@acme.com) - 后端工程师⑤ AGENTS.md(核心大脑)原文翻译
🚀 第一次运行(First Run)
如果存在 BOOTSTRAP.md,那就是你的出生证明。
按照它的指引行动
搞清楚你是谁
然后删除它
👉 你以后不再需要它
🔁 每一次会话(Every Session)
在做任何事情之前:
阅读
SOUL.md—— 你是谁阅读
USER.md—— 你在帮助谁阅读
memory/YYYY-MM-DD.md(今天 + 昨天)—— 最近发生了什么如果是主会话(MAIN SESSION,和人类直接聊天):额外读取
MEMORY.md
不要请求许可,直接做。
🧠 记忆(Memory)
你每个会话都是“重新醒来”的。
下面这些文件,才是你的连续性来源:
每日记忆:
memory/YYYY-MM-DD.md
原始日志
记录发生了什么
长期记忆:
MEMORY.md
精炼后的记忆
类似人类的长期记忆
记录重要的东西:
决策、背景、需要记住的事。
除非被要求,否则不要记录秘密。
🧠 MEMORY.md —— 长期记忆规则
只在主会话中加载
不要在共享场景中加载(群聊、Discord 等)
出于安全原因(包含个人信息)
你可以在主会话中自由读 / 写 / 更新
记录:
重要事件
思考
决策
观点
经验教训
这是提炼后的记忆,不是原始日志
定期从每日记忆中提炼,更新到这里
📝 写下来!不要只“心里记”
模型的记忆是有限的
想记住 → 必须写进文件
“心理记忆”在会话重启后会消失,文件不会
当有人说“记住这个” → 更新
memory/YYYY-MM-DD.md学到经验 → 更新
AGENTS.md / TOOLS.md / 技能文档犯错 → 写下来,防止以后再犯
文字 > 大脑
🔒 安全(Safety)
永远不要泄露隐私数据
破坏性命令要先问
用
trash替代rm(可恢复 > 永久删除)不确定就问
🌍 外部 vs 内部操作
可以直接做的:
读文件、学习、整理
搜索网页、看日历
在当前工作空间内操作
必须先问的:
发邮件 / 发推文 / 公共发布
任何“离开本机”的行为
任何你不确定的事
👥 群聊规则(Group Chats)
你能看到用户的东西 ≠ 你能替他说话。
在群聊里:
你是参与者
不是他的代言人
不是他的代理
说话前先想。
💬 什么时候该说话?
该回应的时候:
被点名
被直接提问
你能提供真正价值
纠正重要错误信息
被要求总结
该保持沉默(HEARTBEAT_OK):
只是闲聊
已经有人回答了
只会回复“嗯”“是的”
不说也完全不影响聊天
会破坏聊天氛围
像人一样聊天:质量 > 数量
😊 像人一样用表情
在支持 Reaction 的平台(Discord / Slack):
👍 表示认可
😂 表示好笑
🤔 表示思考
✅ 表示确认
每条消息最多一个 reaction,不要刷屏。
🛠 工具(Tools)
工具由 Skill 提供
用前看对应的
SKILL.md本地偏好、配置写进
TOOLS.md
语音能力:
如果有 TTS(如 ElevenLabs)
讲故事、总结电影时用语音
比文字更有沉浸感
💓 Heartbeat(心跳机制)
收到心跳轮询时,不要每次只回 HEARTBEAT_OK。
先看
HEARTBEAT.md没有需要处理的 → 才回
HEARTBEAT_OK可以编辑
HEARTBEAT.md放待办清单
⏱ Heartbeat vs Cron
用 Heartbeat:
多个检查可以合并
需要最近对话上下文
时间允许浮动
想减少 API 调用
用 Cron:
精确时间
独立任务
一次性提醒
不依赖主会话
🔄 记忆维护(在 Heartbeat 中)
每隔几天:
看最近的
memory/YYYY-MM-DD.md提取重要事件 / 教训
更新到
MEMORY.md删除过期内容
就像人类写日记 + 复盘。
🎯 目标
有用,但不烦人
主动做事,但尊重安静时间。
✨ Make It Yours
这是起点。
慢慢加入你自己的规则和风格。
⑥ 记忆如何被索引+检索
┌─────────────────────────────────────────────────────────────┐
│ 1. 文件保存 │
│ ~/clawd/memory/2026-01-26.md │
└─────────────────────────────────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────────┐
│ 2. 文件监视器检测到变化 │
│ Chokidar 监视 MEMORY.md + memory/**/*.md │
│ 防抖1.5秒(避免频繁重建索引)以批量处理快速写入 │
└─────────────────────────────────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────────┐
│ 3. 分块 │
│ 分割成约400 token的块,重叠80 token │
│ │
│ ┌────────────────┐ │
│ │ 块 1 │ │
│ │ 第 1-15 行 │──────┐ │
│ └────────────────┘ │ │
│ ┌────────────────┐ │ (80 token 重叠)
| │ 防止重要内容被卡在两块中间
│ │ 块 2 │◄─────┘ │
│ │ 第 12-28 行 │──────┐ │
│ └────────────────┘ │ │
│ ┌────────────────┐ │ │
│ │ 块 3 │◄─────┘ │
│ │ 第 25-40 行 │ │
│ └────────────────┘ │
│ │
│ 为什么用400/80?平衡语义连贯性与粒度。 │
│ 重叠确保跨越块边界的事实能被两边捕获。 │
│ 两个值都是可配置的。 │
└─────────────────────────────────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────────┐
│ 4. 嵌入 │
│ 每个块 -> 嵌入提供商 -> 向量 │
│ │
│ "讨论REST vs GraphQL" -> │
│ OpenAI/Gemini/Local -> │
│ [0.12, -0.34, 0.56, ...] (1536 维) │
└─────────────────────────────────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────────┐
│ 5. 存储 │
│ ~/.clawdbot/memory/<agentId>.sqlite │
│ │
│ 表: │
│ - chunks (id, path, start_line, end_line, text, hash) │
│ - chunks_vec (id, embedding) -> sqlite-vec │
│ - chunks_fts (text) -> FTS5 全文搜索 │
│ - embedding_cache (hash, vector) -> 避免重复嵌入 │
└─────────────────────────────────────────────────────────────┘chunks
原始文本 + 位置信息
chunks_vec(sqlite-vec)
向量搜索
hunks_fts(FTS5)
全文搜索
用于:精确关键词
embedding_cache
内容 hash → embedding
避免:同一段话反复算 embedding
向量搜索+全文搜索 :两者结合,使Clawdbot能够从一个轻量级数据库文件中运行混合搜索(语义 + 关键词)。
当你搜索记忆时,Clawdbot会并行运行两种搜索策略。向量搜索(语义)找到意思相同的内容,BM25搜索(关键词)找到包含确切token的内容。
结果通过加权评分合并:
最终得分 = (0.7 向量得分) + (0.3 文本得分)
为什么是70/30?语义相似性是记忆回忆的主要信号,但BM25关键词匹配能捕捉向量可能遗漏的确切术语(名称、ID、日期)。低于minScore阈值(默认0.35)的结果会被过滤掉。所有这些值都是可配置的。
这确保无论你是在搜索概念("那个数据库的事情")还是具体内容("POSTGRES_URL"),都能获得良好的结果。
⑦ 同一实例多agent空间
Clawdbot支持多个Agent,每个Agent都有完全独立的记忆:
比如你要两个 Agent:
只要你这样启动👇
clawdbot start --agent main --workspace ~/clawd
clawdbot start --agent work --workspace ~/clawd-work~/.clawdbot/memory/ # 状态目录(索引)
├── main.sqlite # "main" Agent的向量索引
└── work.sqlite # "work" Agent的向量索引
~/clawd/ # "main" Agent工作空间(源文件)
├── MEMORY.md
└── memory/
└── 2026-01-26.md
~/clawd-work/ # "work" Agent工作空间(源文件)
├── MEMORY.md
└── memory/
└── 2026-01-26.mdMarkdown文件(事实来源)位于每个工作空间中,而SQLite索引(派生数据)位于状态目录中。每个Agent都有自己的工作空间和索引。记忆管理器通过agentId + workspaceDir来区分,因此不会自动发生跨Agent记忆搜索。
Agent能读取彼此的记忆吗? 默认不能。每个Agent只能看到自己的工作空间。但是,工作空间是一个软沙盒(默认工作目录),而不是硬边界。除非启用严格的沙盒机制,否则Agent理论上可以使用绝对路径访问另一个工作空间。
这种隔离对于分离上下文很有用。一个用于WhatsApp的"个人"Agent和一个用于Slack的"工作"Agent,各自拥有独立的记忆和个性。
压缩
每个AI模型都有上下文窗口限制。Claude有20万token,GPT-5.1有100万。长对话最终会触及这个上限。
当这种情况发生时,Clawdbot使用压缩:将旧对话总结为紧凑的条目,同时保留最近消息的完整性。
┌─────────────────────────────────────────────────────────────┐
│ 压缩前 │
│ 上下文:180,000 / 200,000 token │
│ │
│ [第1轮] 用户:"我们建个API吧" │
│ [第2轮] Agent:"好的!你需要什么端点?" │
│ [第3轮] 用户:"用户和认证相关的" │
│ [第4轮] Agent:*创建了500行模式定义* │
│ [第5轮] 用户:"加上限流功能" │
│ [第6轮] Agent:*修改代码* │
│ ...(还有100多轮)... │
│ [第150轮] 用户:"状态怎么样了?" │
│ │
│ ⚠️ 接近限制 │
└─────────────────────────────────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────────┐
│ 触发压缩 │
│ │
│ 1. 将第1-140轮总结为紧凑摘要 │
│ 2. 保留第141-150轮不变(近期上下文) │
│ 3. 将摘要持久化到JSONL转录文件 │
└─────────────────────────────────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────────┐
│ 压缩后 │
│ 上下文:45,000 / 200,000 token │
│ │
│ [摘要] "构建了带/users、/auth端点的REST API。 │
│ 实现了JWT认证、限流(100次/分钟)、PostgreSQL数据库。 │
│ 已部署到预发布环境v2.4.0。 │
│ 当前重点:生产环境部署准备。" │
│ │
│ [第141-150轮原样保留] │
│ │
└─────────────────────────────────────────────────────────────┘自动 vs 手动压缩
自动:当接近上下文限制时触发
• 在详细模式下你会看到:🧹 自动压缩完成
• 原始请求会用压缩后的上下文重试
手动:使用 /compact 命令
/compact 重点关注决策和未解决的问题
与某些优化不同,压缩会持久化到磁盘。摘要被写入会话的JSONL转录文件,因此未来的会话以压缩后的历史开始。
⑧ 记忆刷新
基于LLM的压缩是一个有损过程。重要信息可能被总结掉并可能丢失。为了应对这一点,Clawdbot使用了预压缩记忆刷新。
┌─────────────────────────────────────────────────────────────┐
│ 上下文接近限制 │
│ │
│ ████████████████████████████░░░░░░░░ 上下文的75% │
│ ↑ │
│ 超过软阈值 │
│ (contextWindow - reserve - softThreshold)│
└─────────────────────────────────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────────┐
│ 静默记忆刷新轮次 │
│ │
│ 系统:"预压缩记忆刷新。现在存储持久的 │
│ 记忆(使用 memory/YYYY-MM-DD.md)。 │
│ 如果没有要存储的,回复 NO_REPLY。" │
│ │
│ Agent:审查对话中的重要信息 │
│ 将关键决策/事实写入记忆文件 │
│ -> NO_REPLY(用户看不到任何内容) │
└─────────────────────────────────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────────┐
│ 安全进行压缩 │
│ │
│ 重要信息现在已在磁盘上 │
│ 压缩可以在不丢失知识的情况下进行 │
└─────────────────────────────────────────────────────────────┘记忆刷新可以在clawdbot.yaml文件或clawdbot.json文件中配置。
{
"agents":{
"defaults":{
"compaction":{
"reserveTokensFloor":20000,
"memoryFlush":{
"enabled":true,
"softThresholdTokens":4000,
"systemPrompt":"会话接近压缩。现在存储持久的记忆。",
"prompt":"将持久的笔记写入 memory/YYYY-MM-DD.md;如果没有要存储的,回复 NO_REPLY。"
}
}
}
}
}假设你今天有个对话:
用户决定数据库用 PostgreSQL
部署在新加坡
SLA 99.9%
这些信息 被写入 MEMORY.md,对话里没有了。
场景 A:模型需要用到历史知识
用户明天问:
“我们上次决定数据库用哪个?在哪里部署?”
系统不会去查对话历史,因为对话历史已经压缩或清理
系统检索 MEMORY.md / sqlite chunks → 找到 PostgreSQL、部署新加坡、SLA 99.9%
临时把这些信息拼到 prompt 里 → 模型就能回答:
你上次决定使用 PostgreSQL,并部署在新加坡,SLA 要求 99.9%场景 B:当前对话不涉及历史知识
模型就不会去检索
MEMORY.md 安静躺在硬盘上
对话和推理都不会被干扰
⑨ 剪枝
工具结果可能非常庞大。单个exec命令可能输出5万个字符的日志。剪枝会修剪这些旧输出,而不重写历史。这是一个有损过程,旧输出无法恢复。
┌─────────────────────────────────────────────────────────────┐
│ 剪枝前(内存中) │
│ │
│ 工具结果(exec):[5万个字符的npm install输出] │
│ 工具结果(read):[大型配置文件,1万个字符] │
│ 工具结果(exec):[构建日志,3万个字符] │
│ 用户:"构建成功了吗?" │
└─────────────────────────────────────────────────────────────┘
│
▼ (软修剪 + 硬清除)
┌─────────────────────────────────────────────────────────────┐
│ 剪枝后(发送给模型) │
│ │
│ 工具结果(exec):"npm WARN deprecated...[已截断] │
│ ...成功安装。" │
│ 工具结果(read):"[旧工具结果内容已清除]" │
│ 工具结果(exec):[保留 - 太新,不适合剪枝] │
│ 用户:"构建成功了吗?" │
└─────────────────────────────────────────────────────────────┘磁盘上的JSONL文件:保持不变(完整输出仍然在那里)
软修剪(Soft trim)
保留最新和最重要的一部分
参数示例:
"softTrim":{
"maxChars":4000,
"headChars":1500,
"tailChars":1500
}
意思:
剩下的内容总长度 ≤ 4000 字符
前 1500 + 后 1500 字符保留
中间部分截断 → “有损”
硬清除(Hard clear)
删除超出限制的旧工具结果
替换成占位符:
"[旧工具结果内容已清除]"
缓存TTL剪枝
Anthropic(模型厂商)会对提示词前缀进行最多5分钟的缓存,以减少重复调用的延迟和成本。当相同的提示词前缀在TTL窗口内发送时,缓存的token成本降低约90%。TTL过期后,下一个请求必须重新缓存整个提示词。
问题:如果会话在TTL之后闲置,下一个请求会失去缓存,必须以完整的"缓存写入"价格重新缓存完整的对话历史。
缓存TTL剪枝通过在缓存过期后检测并修剪旧工具结果来解决这个问题。更小的提示词重新缓存意味着更低的成本:
{
"agent":{
"contextPruning":{
"mode":"cache-ttl",
"ttl":"600",
"keepLastAssistants":3,
"softTrim":{
"maxChars":4000,
"headChars":1500,
"tailChars":1500
},
"hardClear":{
"enabled":true,
"placeholder":"[旧工具结果内容已清除]"
}
}
}
}
- 感谢你赐予我前进的力量

