以下内容参考自《How Clawdbot Remembers Everything》

① 上下文是啥？

我们先来理解模型在每次请求时能看到什么：

[0] 系统提示词（静态指令 + 条件指令）
[1] 项目上下文（引导文件：AGENTS.md、SOUL.md 等）
[2] 对话历史（消息、工具调用、压缩摘要）
[3] 当前消息

我直接用一个 “真实 Agent + 真实一次请求”的例子，把这 4 个东西「摊开来看」。

设你做了一个 企业知识助理 Agent，用来帮同事查资料、写方案。

Agent 目录结构大概是这样的：

agent/
├─ AGENTS.md
├─ SOUL.md
├─ memory/
│  └─ user_profile.md
└─ tools/

用户这次发来一句话：

“帮我按照我们公司的风格写一份【到店减重管理】的项目介绍。”

下面我们看 模型在“这一轮请求”里到底能看到什么。

[0] 系统提示词（System Prompt）

👉 这是模型的“出厂设定 + 管理员规则”

举例（你一般看不到，但确实存在）

你是一个企业知识助理 Agent
- 语气：专业、偏产品经理风格
- 不允许编造公司内部数据
- 可以调用 search_docs / write_doc 工具

📌 特点：

模型本身不可编辑（用户不能改）
每次请求都会带上
决定了：能不能用工具、用什么语气、安全边界

[1] 项目上下文（AGENTS.md / SOUL.md 等）

AGENTS.md 示例

# Agent 角色说明

本 Agent 服务于减重管理业务线。

核心目标：
- 帮助输出项目方案
- 统一公司对外表述口径

写作风格：
- 偏业务汇报
- 避免营销话术

SOUL.md 示例

# Agent 性格

- 理性
- 偏工程 + 产品思维
- 结论先行

📌 特点：

你可以直接改 Markdown
每次请求都会“原样注入”
不是模型自动生成的
更像是：

Agent 的「人格说明书 + 使用手册」

[2] 对话历史（含压缩摘要）

👉 这是“短期记忆 / 工作记忆”

假设前面对话是：

用户：我们公司主打到店减重管理
Agent：好的，我会以该业务为核心

如果对话很长，系统可能变成这样：

【摘要】
用户主要关注到店减重管理项目，目标是对外输出标准化介绍。

📌 特点：

来自 真实聊天
会被截断 / 压缩
不稳定（上下文窗口有限）
不是长期可靠的

👉 这一步是“模型能记得，但不保证多久”。

[3] 当前消息

👉 这一轮真正触发推理的输入

帮我按照我们公司的风格写一份【到店减重管理】的项目介绍

📌 特点：

最明确
权重最高
没有历史就只能靠它

四者放在一起（一眼看懂版）

你可以把一次请求理解成👇

[系统提示词]
你是谁 + 能干嘛 + 不能干嘛

[项目上下文]
你这个 Agent 是干什么业务的
你应该用什么风格和价值观

[对话历史]
刚才聊到哪了（可能被压缩）

[当前消息]
用户现在要你做什么

② 上下文 vs 记忆

上下文是模型在单次请求中能看到的一切：

上下文的特性：

临时的——只存在于本次请求期间
有限的——受限于模型的上下文窗口（例如20万token）
昂贵的——每个token都计入API成本和速度

记忆是存储在磁盘上的内容：

记忆 = MEMORY.md + memory/*.md + 会话转录文件

记忆的特性：

持久的——在重启、日复一日、月复一月后依然存在
无限的——可以无限增长
低成本的——存储不产生API费用
可搜索的——建立索引以支持语义检索

③ 记忆工具

Agent通过两个专用工具来访问记忆：

1. memory_search

用途：在所有文件中查找相关的记忆

{
  "name":"memory_search",
"description":"强制性回忆步骤：在回答关于之前工作、决策、日期、人员、偏好或待办事项的问题之前，对MEMORY.md和memory/*.md进行语义搜索",
"parameters":{
    "query":"我们对API做了什么决定？",
    "maxResults":6,
    "minScore":0.35
}
}

返回结果：

{
  "results":[
    {
      "path":"memory/2026-01-20.md",
      "startLine":45,
      "endLine":52,
      "score":0.87,
      "snippet":"## API 讨论\n决定为了简单起见使用REST而不是GraphQL...",
      "source":"memory"
    }
],
"provider":"openai",
"model":"text-embedding-3-small"
}

2. memory_get

用途：在找到内容后读取具体内容

{
  "name":"memory_get",
"description":"在使用memory_search后，从记忆文件中读取特定行",
"parameters":{
    "path":"memory/2026-01-20.md",
    "from":45,
    "lines":15
}
}

返回结果：

{
  "path": "memory/2026-01-20.md",
  "text": "## API 讨论\n\n与团队讨论API架构。\n\n### 决策\n我们选择REST而非GraphQL，原因如下：\n1. 实现更简单\n2. 更好的缓存支持\n3. 团队更熟悉\n\n### 端点\n- GET /users\n- POST /auth/login\n- GET /projects/:id"
}

写入记忆

并没有专门的memory_write工具。Agent使用标准的写入和编辑工具来写入记忆——这些工具它本来就在用于处理任何文件。由于记忆就是普通的Markdown，你也可以手动编辑这些文件（它们会被自动重新索引）。

写入位置的决策是通过AGENTS.md中的提示来驱动的：

在预压缩刷新和会话结束时，也会自动进行写入（后续章节会介绍）。

④ 记忆存储

Clawdbot的记忆系统建立在"记忆就是Agent工作空间中的纯Markdown"这一原则之上。

双层记忆系统

记忆位于Agent的工作空间中（默认：~/clawd/）：

~/clawd/
├── MEMORY.md              - 第二层：长期策划的知识
└── memory/
    ├── 2026-01-26.md      - 第一层：今天的笔记
    ├── 2026-01-25.md      - 昨天的笔记
    ├── 2026-01-24.md      - ...以此类推
    └── ...

第一层：每日日志（memory/YYYY-MM-DD.md）

这些是仅追加的每日笔记，Agent会在一天中随时写入。当Agent想要记住某事，或被明确告知要记住某事时，就会写入这里。

# 2026-01-26

## 10:30 AM - API 讨论
与用户讨论REST vs GraphQL。决策：为了简单使用REST。
关键端点：/users、/auth、/projects。

## 2:15 PM - 部署
将v2.3.0部署到生产环境。没有问题。

## 4:00 PM - 用户偏好
用户提到他们喜欢TypeScript胜过JavaScript。

第二层：长期记忆（MEMORY.md）

这是经过策划的、持久的知识。当发生重大事件、想法、决策、观点和学到的教训时，Agent会写入这里。

# 长期记忆

## 用户偏好
- 喜欢TypeScript胜过JavaScript
- 喜欢简洁的解释
- 正在做"Acme Dashboard"项目

## 重要决策
- 2026-01-15：选择PostgreSQL作为数据库
- 2026-01-20：采用REST而非GraphQL
- 2026-01-26：使用Tailwind CSS进行样式设计

## 关键联系人
- Alice (alice@acme.com) - 设计负责人
- Bob (bob@acme.com) - 后端工程师

⑤ AGENTS.md（核心大脑）原文翻译

🚀 第一次运行（First Run）

如果存在 BOOTSTRAP.md，那就是你的出生证明。

按照它的指引行动
搞清楚你是谁
然后删除它
👉 你以后不再需要它

🔁 每一次会话（Every Session）

在做任何事情之前：

阅读 SOUL.md —— 你是谁
阅读 USER.md —— 你在帮助谁
阅读 memory/YYYY-MM-DD.md（今天 + 昨天）—— 最近发生了什么
如果是主会话（MAIN SESSION，和人类直接聊天）：额外读取 MEMORY.md

不要请求许可，直接做。

🧠 记忆（Memory）

你每个会话都是“重新醒来”的。
下面这些文件，才是你的连续性来源：

每日记忆：memory/YYYY-MM-DD.md

原始日志
记录发生了什么

长期记忆：MEMORY.md

精炼后的记忆
类似人类的长期记忆

记录重要的东西：
决策、背景、需要记住的事。
除非被要求，否则不要记录秘密。

🧠 `MEMORY.md` —— 长期记忆规则

只在主会话中加载
不要在共享场景中加载（群聊、Discord 等）
出于安全原因（包含个人信息）
你可以在主会话中自由读 / 写 / 更新
记录：

重要事件
思考
决策
观点
经验教训

这是提炼后的记忆，不是原始日志

定期从每日记忆中提炼，更新到这里

📝 写下来！不要只“心里记”

模型的记忆是有限的
想记住 → 必须写进文件
“心理记忆”在会话重启后会消失，文件不会
当有人说“记住这个” → 更新 memory/YYYY-MM-DD.md
学到经验 → 更新 AGENTS.md / TOOLS.md / 技能文档
犯错 → 写下来，防止以后再犯

文字 > 大脑

🔒 安全（Safety）

永远不要泄露隐私数据
破坏性命令要先问
用 trash 替代 rm（可恢复 > 永久删除）
不确定就问

🌍 外部 vs 内部操作

可以直接做的：

读文件、学习、整理
搜索网页、看日历
在当前工作空间内操作

必须先问的：

发邮件 / 发推文 / 公共发布
任何“离开本机”的行为
任何你不确定的事

👥 群聊规则（Group Chats）

你能看到用户的东西 ≠ 你能替他说话。

在群聊里：

你是参与者
不是他的代言人
不是他的代理

说话前先想。

💬 什么时候该说话？

该回应的时候：

被点名
被直接提问
你能提供真正价值
纠正重要错误信息
被要求总结

该保持沉默（HEARTBEAT_OK）：

只是闲聊
已经有人回答了
只会回复“嗯”“是的”
不说也完全不影响聊天
会破坏聊天氛围

像人一样聊天：质量 > 数量

😊 像人一样用表情

在支持 Reaction 的平台（Discord / Slack）：

👍 表示认可
😂 表示好笑
🤔 表示思考
✅ 表示确认

每条消息最多一个 reaction，不要刷屏。

🛠 工具（Tools）

工具由 Skill 提供
用前看对应的 SKILL.md
本地偏好、配置写进 TOOLS.md

语音能力：

如果有 TTS（如 ElevenLabs）
讲故事、总结电影时用语音
比文字更有沉浸感

💓 Heartbeat（心跳机制）

收到心跳轮询时，不要每次只回 HEARTBEAT_OK。

先看 HEARTBEAT.md
没有需要处理的 → 才回 HEARTBEAT_OK
可以编辑 HEARTBEAT.md 放待办清单

⏱ Heartbeat vs Cron

用 Heartbeat：

多个检查可以合并
需要最近对话上下文
时间允许浮动
想减少 API 调用

用 Cron：

精确时间
独立任务
一次性提醒
不依赖主会话

🔄 记忆维护（在 Heartbeat 中）

每隔几天：

看最近的 memory/YYYY-MM-DD.md
提取重要事件 / 教训
更新到 MEMORY.md
删除过期内容

就像人类写日记 + 复盘。

🎯 目标

有用，但不烦人
主动做事，但尊重安静时间。

✨ Make It Yours

这是起点。
慢慢加入你自己的规则和风格。

⑥ 记忆如何被索引+检索

┌─────────────────────────────────────────────────────────────┐
│  1. 文件保存                                                │
│     ~/clawd/memory/2026-01-26.md                            │
└─────────────────────────────────────────────────────────────┘
                              │
                              ▼
┌─────────────────────────────────────────────────────────────┐
│  2. 文件监视器检测到变化                                    │
│     Chokidar 监视 MEMORY.md + memory/**/*.md                │
│     防抖1.5秒（避免频繁重建索引）以批量处理快速写入                             │
└─────────────────────────────────────────────────────────────┘
                              │
                              ▼
┌─────────────────────────────────────────────────────────────┐
│  3. 分块                                                    │
│     分割成约400 token的块，重叠80 token                     │
│                                                             │
│     ┌────────────────┐                                      │
│     │ 块 1           │                                      │
│     │ 第 1-15 行     │──────┐                               │
│     └────────────────┘      │                               │
│     ┌────────────────┐      │ (80 token 重叠）
|                             │  防止重要内容被卡在两块中间
│     │ 块 2           │◄─────┘                               │
│     │ 第 12-28 行    │──────┐                               │
│     └────────────────┘      │                               │
│     ┌────────────────┐      │                               │
│     │ 块 3           │◄─────┘                               │
│     │ 第 25-40 行    │                                      │
│     └────────────────┘                                      │
│                                                             │
│     为什么用400/80？平衡语义连贯性与粒度。                  │
│     重叠确保跨越块边界的事实能被两边捕获。                   │
│     两个值都是可配置的。                                     │
└─────────────────────────────────────────────────────────────┘
                              │
                              ▼
┌─────────────────────────────────────────────────────────────┐
│  4. 嵌入                                                    │
│     每个块 -> 嵌入提供商 -> 向量                            │
│                                                             │
│     "讨论REST vs GraphQL" ->                                │
│         OpenAI/Gemini/Local ->                              │
│         [0.12, -0.34, 0.56, ...]  (1536 维)                 │
└─────────────────────────────────────────────────────────────┘
                              │
                              ▼
┌─────────────────────────────────────────────────────────────┐
│  5. 存储                                                    │
│     ~/.clawdbot/memory/<agentId>.sqlite                     │
│                                                             │
│     表：                                                    │
│     - chunks (id, path, start_line, end_line, text, hash)   │
│     - chunks_vec (id, embedding)      -> sqlite-vec         │
│     - chunks_fts (text)               -> FTS5 全文搜索      │
│     - embedding_cache (hash, vector)  -> 避免重复嵌入       │
└─────────────────────────────────────────────────────────────┘

`chunks`

原始文本 + 位置信息

`chunks_vec`（sqlite-vec）

向量搜索

`hunks_fts`（FTS5）

全文搜索
用于：精确关键词

`embedding_cache`

内容 hash → embedding
避免：同一段话反复算 embedding

向量搜索+全文搜索：两者结合，使Clawdbot能够从一个轻量级数据库文件中运行混合搜索（语义 + 关键词）。

当你搜索记忆时，Clawdbot会并行运行两种搜索策略。向量搜索（语义）找到意思相同的内容，BM25搜索（关键词）找到包含确切token的内容。

结果通过加权评分合并：

最终得分 = (0.7 向量得分) + (0.3 文本得分)

为什么是70/30？语义相似性是记忆回忆的主要信号，但BM25关键词匹配能捕捉向量可能遗漏的确切术语（名称、ID、日期）。低于minScore阈值（默认0.35）的结果会被过滤掉。所有这些值都是可配置的。

这确保无论你是在搜索概念（"那个数据库的事情"）还是具体内容（"POSTGRES_URL"），都能获得良好的结果。

⑦ 同一实例多agent空间

Clawdbot支持多个Agent，每个Agent都有完全独立的记忆：

比如你要两个 Agent：

Agent	agentId	workspaceDir
个人	main	`~/clawd`
工作	work	`~/clawd-work`

只要你这样启动👇

clawdbot start --agent main --workspace ~/clawd
clawdbot start --agent work --workspace ~/clawd-work

~/.clawdbot/memory/              # 状态目录（索引）
├── main.sqlite                  # "main" Agent的向量索引
└── work.sqlite                  # "work" Agent的向量索引

~/clawd/                         # "main" Agent工作空间（源文件）
├── MEMORY.md
└── memory/
    └── 2026-01-26.md

~/clawd-work/                    # "work" Agent工作空间（源文件）
├── MEMORY.md
└── memory/
    └── 2026-01-26.md

Markdown文件（事实来源）位于每个工作空间中，而SQLite索引（派生数据）位于状态目录中。每个Agent都有自己的工作空间和索引。记忆管理器通过agentId + workspaceDir来区分，因此不会自动发生跨Agent记忆搜索。

Agent能读取彼此的记忆吗？ 默认不能。每个Agent只能看到自己的工作空间。但是，工作空间是一个软沙盒（默认工作目录），而不是硬边界。除非启用严格的沙盒机制，否则Agent理论上可以使用绝对路径访问另一个工作空间。

这种隔离对于分离上下文很有用。一个用于WhatsApp的"个人"Agent和一个用于Slack的"工作"Agent，各自拥有独立的记忆和个性。

压缩

每个AI模型都有上下文窗口限制。Claude有20万token，GPT-5.1有100万。长对话最终会触及这个上限。

当这种情况发生时，Clawdbot使用压缩：将旧对话总结为紧凑的条目，同时保留最近消息的完整性。

┌─────────────────────────────────────────────────────────────┐
│  压缩前                                                     │
│  上下文：180,000 / 200,000 token                            │
│                                                             │
│  [第1轮] 用户："我们建个API吧"                              │
│  [第2轮] Agent："好的！你需要什么端点？"                    │
│  [第3轮] 用户："用户和认证相关的"                           │
│  [第4轮] Agent：*创建了500行模式定义*                       │
│  [第5轮] 用户："加上限流功能"                               │
│  [第6轮] Agent：*修改代码*                                  │
│  ...（还有100多轮）...                                      │
│  [第150轮] 用户："状态怎么样了？"                           │
│                                                             │
│  ⚠️ 接近限制                                                │
└─────────────────────────────────────────────────────────────┘
                              │
                              ▼
┌─────────────────────────────────────────────────────────────┐
│  触发压缩                                                   │
│                                                             │
│  1. 将第1-140轮总结为紧凑摘要                               │
│  2. 保留第141-150轮不变（近期上下文）                       │
│  3. 将摘要持久化到JSONL转录文件                             │
└─────────────────────────────────────────────────────────────┘
                              │
                              ▼
┌─────────────────────────────────────────────────────────────┐
│  压缩后                                                     │
│  上下文：45,000 / 200,000 token                             │
│                                                             │
│  [摘要] "构建了带/users、/auth端点的REST API。              │
│   实现了JWT认证、限流（100次/分钟）、PostgreSQL数据库。      │
│   已部署到预发布环境v2.4.0。                                 │
│   当前重点：生产环境部署准备。"                              │
│                                                             │
│  [第141-150轮原样保留]                                      │
│                                                             │
└─────────────────────────────────────────────────────────────┘

自动 vs 手动压缩

自动：当接近上下文限制时触发

• 在详细模式下你会看到：🧹 自动压缩完成
• 原始请求会用压缩后的上下文重试

手动：使用 /compact 命令

/compact 重点关注决策和未解决的问题

与某些优化不同，压缩会持久化到磁盘。摘要被写入会话的JSONL转录文件，因此未来的会话以压缩后的历史开始。

⑧ 记忆刷新

基于LLM的压缩是一个有损过程。重要信息可能被总结掉并可能丢失。为了应对这一点，Clawdbot使用了预压缩记忆刷新。

┌─────────────────────────────────────────────────────────────┐
│  上下文接近限制                                             │
│                                                             │
│  ████████████████████████████░░░░░░░░  上下文的75%         │
│                              ↑                              │
│                    超过软阈值                               │
│                    (contextWindow - reserve - softThreshold)│
└─────────────────────────────────────────────────────────────┘
                              │
                              ▼
┌─────────────────────────────────────────────────────────────┐
│  静默记忆刷新轮次                                           │
│                                                             │
│  系统："预压缩记忆刷新。现在存储持久的                      │
│          记忆（使用 memory/YYYY-MM-DD.md）。                │
│          如果没有要存储的，回复 NO_REPLY。"                 │
│                                                             │
│  Agent：审查对话中的重要信息                                │
│         将关键决策/事实写入记忆文件                         │
│         -> NO_REPLY（用户看不到任何内容）                   │
└─────────────────────────────────────────────────────────────┘
                              │
                              ▼
┌─────────────────────────────────────────────────────────────┐
│  安全进行压缩                                               │
│                                                             │
│  重要信息现在已在磁盘上                                     │
│  压缩可以在不丢失知识的情况下进行                           │
└─────────────────────────────────────────────────────────────┘

记忆刷新可以在clawdbot.yaml文件或clawdbot.json文件中配置。

{
  "agents":{
    "defaults":{
      "compaction":{
        "reserveTokensFloor":20000,
        "memoryFlush":{
          "enabled":true,
          "softThresholdTokens":4000,
          "systemPrompt":"会话接近压缩。现在存储持久的记忆。",
          "prompt":"将持久的笔记写入 memory/YYYY-MM-DD.md；如果没有要存储的，回复 NO_REPLY。"
        }
      }
    }
  }
}

假设你今天有个对话：

用户决定数据库用 PostgreSQL
部署在新加坡
SLA 99.9%

这些信息 被写入 MEMORY.md，对话里没有了。

场景 A：模型需要用到历史知识

用户明天问：

“我们上次决定数据库用哪个？在哪里部署？”

系统不会去查对话历史，因为对话历史已经压缩或清理
系统检索 MEMORY.md / sqlite chunks → 找到 PostgreSQL、部署新加坡、SLA 99.9%
临时把这些信息拼到 prompt 里 → 模型就能回答：

你上次决定使用 PostgreSQL，并部署在新加坡，SLA 要求 99.9%

场景 B：当前对话不涉及历史知识

模型就不会去检索
MEMORY.md 安静躺在硬盘上
对话和推理都不会被干扰

⑨ 剪枝

工具结果可能非常庞大。单个exec命令可能输出5万个字符的日志。剪枝会修剪这些旧输出，而不重写历史。这是一个有损过程，旧输出无法恢复。

┌─────────────────────────────────────────────────────────────┐
│  剪枝前（内存中）                                           │
│                                                             │
│  工具结果（exec）：[5万个字符的npm install输出]               │
│  工具结果（read）：[大型配置文件，1万个字符]                  │
│  工具结果（exec）：[构建日志，3万个字符]                      │
│  用户："构建成功了吗？"                                      │
└─────────────────────────────────────────────────────────────┘
                              │
                              ▼ （软修剪 + 硬清除）
┌─────────────────────────────────────────────────────────────┐
│  剪枝后（发送给模型）                                       │
│                                                             │
│  工具结果（exec）："npm WARN deprecated...[已截断]           │
│                       ...成功安装。"                        │
│  工具结果（read）："[旧工具结果内容已清除]"                   │
│  工具结果（exec）：[保留 - 太新，不适合剪枝]                  │
│  用户："构建成功了吗？"                                      │
└─────────────────────────────────────────────────────────────┘

磁盘上的JSONL文件：保持不变（完整输出仍然在那里）

软修剪（Soft trim）
保留最新和最重要的一部分
参数示例：

"softTrim":{ "maxChars":4000, "headChars":1500, "tailChars":1500 }

意思：

剩下的内容总长度 ≤ 4000 字符
前 1500 + 后 1500 字符保留
中间部分截断 → “有损”

硬清除（Hard clear）
删除超出限制的旧工具结果
替换成占位符：

"[旧工具结果内容已清除]"

缓存TTL剪枝

Anthropic（模型厂商）会对提示词前缀进行最多5分钟的缓存，以减少重复调用的延迟和成本。当相同的提示词前缀在TTL窗口内发送时，缓存的token成本降低约90%。TTL过期后，下一个请求必须重新缓存整个提示词。

问题：如果会话在TTL之后闲置，下一个请求会失去缓存，必须以完整的"缓存写入"价格重新缓存完整的对话历史。

缓存TTL剪枝通过在缓存过期后检测并修剪旧工具结果来解决这个问题。更小的提示词重新缓存意味着更低的成本：

{
  "agent":{
    "contextPruning":{
      "mode":"cache-ttl",
      "ttl":"600",
      "keepLastAssistants":3,
      "softTrim":{
        "maxChars":4000,
        "headChars":1500,
        "tailChars":1500
      },
      "hardClear":{
        "enabled":true,
        "placeholder":"[旧工具结果内容已清除]"
      }
    }
  }
}

① 上下文是啥？

[0] 系统提示词（System Prompt）

举例（你一般看不到，但确实存在）

[1] 项目上下文（AGENTS.md / SOUL.md 等）

AGENTS.md 示例

SOUL.md 示例

[2] 对话历史（含压缩摘要）

假设前面对话是：

[3] 当前消息

四者放在一起（一眼看懂版）

② 上下文 vs 记忆

③ 记忆工具

1. memory_search

2. memory_get

写入记忆

④ 记忆存储

双层记忆系统

⑤ AGENTS.md（核心大脑）原文翻译

🚀 第一次运行（First Run）

🔁 每一次会话（Every Session）

🧠 记忆（Memory）

🧠 MEMORY.md —— 长期记忆规则

📝 写下来！不要只“心里记”

🔒 安全（Safety）

🌍 外部 vs 内部操作

👥 群聊规则（Group Chats）

💬 什么时候该说话？

😊 像人一样用表情

🛠 工具（Tools）

💓 Heartbeat（心跳机制）

⏱ Heartbeat vs Cron

🔄 记忆维护（在 Heartbeat 中）

🎯 目标

✨ Make It Yours

⑥ 记忆如何被索引+检索

chunks

chunks_vec（sqlite-vec）

hunks_fts（FTS5）

embedding_cache

⑦ 同一实例多agent空间

自动 vs 手动压缩

⑧ 记忆刷新

场景 A：模型需要用到历史知识

场景 B：当前对话不涉及历史知识

⑨ 剪枝

缓存TTL剪枝

🧠 `MEMORY.md` —— 长期记忆规则

`chunks`

`chunks_vec`（sqlite-vec）

`hunks_fts`（FTS5）

`embedding_cache`