从记忆到书 | Touchskyer's Thinking Wall

你正在读的这本书，是用这本书里讲的方法写出来的。

不是比喻。是字面意思。4 个 AI agent 并行写初稿，3 个不同角色做独立 review，一个人类做架构决策和最终仲裁。Harness 约束质量，multi-agent 交叉验证，memex 提供素材。前六章讲的每一个原则，在写这本书的过程中都被执行了一遍。

这是我能给出的最硬的验证：如果方法论是对的，它应该能生产出讲述自己的产品。 如果这本书写得好，方法论成立；如果写得烂，方法论就还不够好——至少在写作领域不够好。

这一章拆解这个过程。

1. 素材层：227 张卡片不是笔记，是工程判断的外化

从 227 张卡片到一本书：生产 Pipeline

第一章已经详细讲过 Zettelkasten 为什么比 vector database 更适合做 agent memory。这里不重复方法论，只讲它在写书场景里的具体表现。

227 张卡片是这本书的全部原始素材。它们不是为写书而写的——它们是 2024 年 9 月到 2026 年 4 月之间、每次踩坑和做出关键决策时留下的原子记录。每一张背后是一个具体的 bug、一个具体的失败、一个具体的 insight。来源是多渠道的：大部分直接写入 memex，也有相当一部分最初记录在 flomo 里——散步时的闪念、深夜读论文时的顿悟、和同事争论后的复盘——后来经过筛选和结构化，迁移进了 memex 的卡片体系。flomo 是捕捉的前哨，memex 是沉淀的仓库；一个重速度，一个重结构。

到大约第 100 张的时候，cluster 开始涌现。“测试可信度”相关的卡片有十几张，“AI agent 的 failure mode”有二十多张，“Git 和部署”有将近三十张。这些 cluster 不是我设计的——它们反映了我在实践中反复遇到的问题域。

到 150 张的时候，cluster 之间的链接开始形成更高层次的结构。“测试可信度”和”AI agent supervision”之间有大量交叉链接——因为验证 AI 输出的质量，本质上就是一个测试问题。这个 insight 直接成了第二章（Harness-Native Engineering）的骨架。

这就是 Zettelkasten 的力量：你不需要从一开始就有一个 outline。写够了原子卡片之后，outline 会自己浮现。你不是在写书，你是在等书从卡片里长出来。

2. 结构层：从 cluster 到章节的三步收敛

Step 1: 用 memex search 识别 cluster

memex search 按 tag 和 keyword 搜索，把 227 张卡片分成大约 12 个 cluster。有些卡片属于多个 cluster——这正是原子性的好处，卡片不被锁定在某一个章节里。

12 个 cluster 对应了 12 个潜在的章节。但一本书不能有 12 章——需要合并和取舍。最终压缩成前言 + 7 章的结构：三层递进（基础层 → 方法层 → 应用层），每一层的 cluster 合并策略不同。

Step 2: 找 narrative arc

每个 cluster 内部，卡片之间的链接形成了一个子图。我找的是这个子图的 narrative arc——读者应该按什么顺序消化这些卡片？

方法是问一个问题：“如果一个读者只能读这个 cluster 里的 5 张卡片，应该读哪 5 张，按什么顺序？”

这个问题强迫你做两件事：选择（哪些是核心，哪些是补充）和排序（先讲什么，后讲什么）。选择决定了章节的范围，排序决定了章节的结构。

这里有一个微妙的张力：227 张卡片是”数据”——tag 频次、link 密度、cluster 大小，都是可量化的信号。但哪些卡片放进哪章、用什么角度展开、如何组织叙事弧线，依赖的是直觉判断。贝佐斯有一个观察：当数据和一线直觉冲突时，值得优先追查直觉信号——因为数据经过聚合会丢失关键维度，而直觉是高维感知的压缩。

写书的过程反复验证了这一点。有些卡片在 link 数据上看起来边缘（只被引用一两次），但我的直觉说”这张很重要”。追查下去，发现它捕捉的是一个跨 cluster 的 insight，只是因为当时没有足够多的相关卡片让 link 密度显现出来。反过来，有些高频出现的主题（比如”prompt engineering 技巧”），数据信号很强，但直觉告诉我它们缺乏持久价值——两个月后模型更新就过时了。

这不是说数据没用。数据是起点：cluster 的涌现、link 的密度、tag 的分布，帮你快速定位 landscape。但最终决定章节走向的，是那种”这里有一个值得深挖的 pattern”的嗅觉。数据告诉你地形，直觉告诉你方向。 对于不可逆的结构决策（这章要不要、这个角度对不对），值得给直觉更多权重——这是一扇单向门，走错了回头成本很高。

Step 3: 多 agent 并行扩展成 draft

有了核心卡片和顺序之后，扩展成完整章节的工作不是我一个人做的——而是交给了一支硅基写作团队。这就是下一节的内容。

3. 生产线：4 Writer Agents + 3 Role Reviewers + 1 Human Architect

这是这本书最 meta 的部分：写书的过程完全复用了第三章（multi-silicon empowerment）和第四章（autonomous operation）的方法论。

并行写作：4 个 Writer Agent

每个章节的初稿由 4 个独立的 writer agent 并行生成。4 个 agent 拿到相同的输入——cluster 里的核心卡片、narrative arc、目标读者画像、语调要求——但彼此的 session 完全隔离。

为什么要 4 个而不是 1 个？原因和第三章讲 Spawn 模型时一样：session 隔离产生独立视角。 同一组卡片，不同的 agent 会选择不同的切入角度、不同的展开顺序、不同的案例侧重。4 个初稿不是 4 个副本，是 4 个 variation。

我的工作是从 4 个 variation 里选最好的骨架，然后把其他版本里的好段落移植过来。这比从零开始写快得多，也比只用 1 个 agent 的输出质量高得多。

三角色 Review：编辑、技术审稿人、读者

每一章的 draft 完成后，进入 3-role review。三个 reviewer agent 各自独立评审：

编辑：看文字质量、结构节奏、与全书的一致性
技术审稿人：看技术描述的准确性、案例的真实性、术语的精确性
读者：看是否有趣、是否想继续读、是否想推荐给朋友

三个角色的 session 同样隔离——reviewer 之间看不到彼此的评审意见。这就是第二章讲的 independent review 原则：reviewer 之间不能互相污染，否则会收敛到 groupthink。

每个角色用 🔴🟡🔵 标注发现的问题，按严重程度排序，最终合并成一份 review 报告。然后我作为 human architect 做仲裁——哪些修改接受，哪些驳回，哪些需要进一步讨论。

这个三角色 review 流程，就是你正在读的这一章经历的流程。 Meta 到这个程度。

人类的角色：架构师，不是打字员

在整个流水线里，我做且只做三件事：

素材选择：227 张卡片里选哪些进哪一章。AI 不知道哪些教训对读者最有价值，因为它没有”目标读者是谁”的直觉。

观点形成：每一个工程判断——“Auth 和 Data Access 必须分离”、“Smoke test 必须包含功能验证”——都是我在实践中形成的。AI 可以帮我把观点说清楚，但观点本身不是 AI 产生的。

删减与语调：AI 倾向于保留所有内容（更多内容 = 更完整），我删掉了大约 40% 的 draft 内容。AI 默认中性礼貌，这本书需要第一人称、直接、有攻击性——去掉 hedging，加上 assertion。删减和语调是创作的核心，AI 做不了。

一个真实案例：第四章是怎么从卡片变成章节的

以第四章（Autonomous Operation）为例。它的 cluster 包含 28 张卡片，涵盖 micro-management vs macro-delegation、tick budget、termination condition、OPC pipeline 等主题。

memex search --tag autonomous --tag pipeline 先拉出主干卡片。然后 link traversal 找到了关联卡片——“convergence check” 链接到 “测试可信度”，“tick budget” 链接到 “resource management”。这些交叉链接帮我发现了章节内部的因果关系：你得先理解 harness（约束），才能理解为什么可以放手让 agent autonomous run。

4 个 writer agent 各写了一版初稿。Agent 1 从 OPC 的一天开始叙事，Agent 2 从”三个阶段”的框架切入，Agent 3 从一个具体的 failure case 开场，Agent 4 从行业对比入手。最终我选了 Agent 2 的框架（三阶段递进最清晰），但把 Agent 1 的 OPC pipeline 段落和 Agent 3 的 tick budget 案例移植了过来。

3-role review 在这一章发现了一个关键问题：技术审稿人指出”convergence check 仍然需要人在 loop 里”这个判断需要 qualify——在什么条件下需要？有没有 partial automation 的可能？这个反馈直接导致了终稿里那段关于 “plan decomposition → execution → verification → convergence check → auto-termination” 链条的分析。

从 28 张卡片到终稿，整个过程大约 6 小时。 其中 4 小时是 AI 在工作（并行写作 + review），2 小时是我在做决策（选骨架、移植段落、仲裁 review）。

4. 经济学：token 是最便宜的生产要素

整本书（前言 + 7 章）从卡片检索到终稿的 AI token 消耗：

卡片检索与 clustering：约 50 次 memex search/read 调用 → ~100K tokens
并行 Draft 生成：每章 4 个 writer agent × 平均 8K tokens output → ~230K tokens
3-role review：每章 3 个 reviewer × 平均 6K tokens → ~130K tokens
修改迭代：每章平均 3 轮人类驱动的修改 → ~140K tokens

总计：约 600K tokens，API 成本约 $10-15。

这个数字说明了一件事：瓶颈不是生成，是判断。 花在 AI 上的钱是 $15，花在我自己身上的时间是几十个小时——选择、排序、删减、调整语调、确保技术准确性、仲裁 review 分歧。AI 便宜到可以忽略，人的判断力才是稀缺资源。

这和第四章的结论一致：autonomous operation 的瓶颈不在 execution，在 convergence check。写书的瓶颈不在写，在判断什么该留、什么该删、什么该改。

5. 方法论的闭环

现在回过头看整个过程，它映射到了本书的四条因果链：

Harness → Autonomous → Empowerment → Output。

Harness 层：卡片的原子格式（YAML frontmatter + wiki-links + tags）就是写作的 harness——它约束了每一条素材的结构，保证了 agent 可以无歧义地 parse 和处理。3-role review 的流程规范就是 mechanical gate——不依赖 agent 的自觉性，而是用流程保证质量。

Autonomous 层：4 writer agents 并行写作、3 reviewer agents 独立评审——这些都是 autonomous operation。我不在 loop 里盯着每个 agent 的每一步输出。我设计 pipeline，按下启动键，等结果。

Empowerment 层：每个 agent 拿到的不只是”写第四章”的任务，而是完整的能力装备——核心卡片、narrative arc、语调要求、目标读者画像、全书结构 context。这就是第三章讲的 capability empowerment，不是派活，是武装。

Output 层：一个人 + 一支硅基团队，几十个小时，一本书。这不是因为我打字快，是因为我不在 loop 里——和第四章的”90 分钟 21 个 work unit”是同一个逻辑。

约束越好，自由越大。 卡片的结构化约束了素材质量，harness 约束了 agent 行为，review 流程约束了产出标准。正因为约束足够好，我才能把写书这件事交给一支硅基团队去 autonomous 执行。

但闭环也是陷阱。

纳瓦尔有一个登山比喻：你爬上了第一个山头，觉得视野不错，但更高的山在另一条山脊上。要到那里，你必须先下山——放弃已有的海拔——才能上更高的山。大多数人不愿意下山，因为沉没成本太真实了。这就是路径依赖：过去的成功锁定了未来的视角。

这本书的 V1 就是第一个山头。V1 建立了框架——从 Zettelkasten 到 multi-agent，从 harness 到 autonomous operation——写出来之后，结构很自洽，逻辑闭环了。但闭环本身也是锁定。V1 的 187 张卡片定义了问题域的边界，V1 的章节结构定义了叙事的路径，你开始不自觉地用已有框架去”安放”新经验，而不是让新经验挑战框架。

V2 是一次有意识的下山。新增的 40 张卡片不只是”更多素材”，它们中有些直接挑战了 V1 的假设。把它们融入不是在已有章节里”加段落”，而是重新审视每一章的核心 claim 是否还成立。有些成立但需要 qualify，有些需要重写，有些需要整章重组。

这也是为什么我对”精读一百本比泛读一千本”这个观点深有体会。TL;DR 式的浅层知识——读个摘要、看个速成视频——感觉在积累，实际在加深路径依赖。你用旧框架快速”理解”了新信息，但从未真正让新信息动摇过旧框架。深度阅读和深度实践的价值在于：它们会让你 uncomfortable，让你发现自己错了。Growth mindset 不是”我愿意学新东西”，而是”我愿意否定旧东西”。

最后的话

这本书从 227 张卡片开始，经过 search → cluster → parallel draft → 3-role review → human arbitration，变成了你手上的 7 章 + 前言。

方法只是杠杆，原始素材才是支点。227 张卡片背后是几千小时的工程实践——踩过的坑、做过的决策、总结过的 pattern。这些时间不能被任何工具替代。AI 可以把 227 张卡片变成一本书，但它不能帮你积累那 227 张卡片。

前言里我说过：读完这本书，你会拥有一套 harness 设计框架、一个多 agent 协作方法论、以及一种新的思维方式。现在你读完了。这些东西是否已经变成你的——取决于你接下来做什么。

不是读更多的书。是开始实践。

写你的第一张卡片。踩你的第一个坑。设计你的第一个 harness。启动你的第一支硅基团队。

一个人，一支硅基团队。从这里开始。