你正在读的这本书,是用这本书里讲的方法写出来的。
不是比喻。是字面意思。4 个 AI agent 并行写初稿,3 个不同角色做独立 review,一个人类做架构决策和最终仲裁。Harness 约束质量,multi-agent 交叉验证,memex 提供素材。前六章讲的每一个原则,在写这本书的过程中都被执行了一遍。
这是我能给出的最硬的验证:如果方法论是对的,它应该能生产出讲述自己的产品。 如果这本书写得好,方法论成立;如果写得烂,方法论就还不够好——至少在写作领域不够好。
这一章拆解这个过程。
1. 素材层:227 张卡片不是笔记,是工程判断的外化
![]()
第一章已经详细讲过 Zettelkasten 为什么比 vector database 更适合做 agent memory。这里不重复方法论,只讲它在写书场景里的具体表现。
227 张卡片是这本书的全部原始素材。它们不是为写书而写的——它们是 2024 年 9 月到 2026 年 4 月之间、每次踩坑和做出关键决策时留下的原子记录。每一张背后是一个具体的 bug、一个具体的失败、一个具体的 insight。来源是多渠道的:大部分直接写入 memex,也有相当一部分最初记录在 flomo 里——散步时的闪念、深夜读论文时的顿悟、和同事争论后的复盘——后来经过筛选和结构化,迁移进了 memex 的卡片体系。flomo 是捕捉的前哨,memex 是沉淀的仓库;一个重速度,一个重结构。
到大约第 100 张的时候,cluster 开始涌现。“测试可信度”相关的卡片有十几张,“AI agent 的 failure mode”有二十多张,“Git 和部署”有将近三十张。这些 cluster 不是我设计的——它们反映了我在实践中反复遇到的问题域。
到 150 张的时候,cluster 之间的链接开始形成更高层次的结构。“测试可信度”和”AI agent supervision”之间有大量交叉链接——因为验证 AI 输出的质量,本质上就是一个测试问题。这个 insight 直接成了第二章(Harness-Native Engineering)的骨架。
这就是 Zettelkasten 的力量:你不需要从一开始就有一个 outline。写够了原子卡片之后,outline 会自己浮现。你不是在写书,你是在等书从卡片里长出来。
2. 结构层:从 cluster 到章节的三步收敛
Step 1: 用 memex search 识别 cluster
memex search 按 tag 和 keyword 搜索,把 227 张卡片分成大约 12 个 cluster。有些卡片属于多个 cluster——这正是原子性的好处,卡片不被锁定在某一个章节里。
12 个 cluster 对应了 12 个潜在的章节。但一本书不能有 12 章——需要合并和取舍。最终压缩成前言 + 7 章的结构:三层递进(基础层 → 方法层 → 应用层),每一层的 cluster 合并策略不同。
Step 2: 找 narrative arc
每个 cluster 内部,卡片之间的链接形成了一个子图。我找的是这个子图的 narrative arc——读者应该按什么顺序消化这些卡片?
方法是问一个问题:“如果一个读者只能读这个 cluster 里的 5 张卡片,应该读哪 5 张,按什么顺序?”
这个问题强迫你做两件事:选择(哪些是核心,哪些是补充)和排序(先讲什么,后讲什么)。选择决定了章节的范围,排序决定了章节的结构。
这里有一个微妙的张力:227 张卡片是”数据”——tag 频次、link 密度、cluster 大小,都是可量化的信号。但哪些卡片放进哪章、用什么角度展开、如何组织叙事弧线,依赖的是直觉判断。贝佐斯有一个观察:当数据和一线直觉冲突时,值得优先追查直觉信号——因为数据经过聚合会丢失关键维度,而直觉是高维感知的压缩。
写书的过程反复验证了这一点。有些卡片在 link 数据上看起来边缘(只被引用一两次),但我的直觉说”这张很重要”。追查下去,发现它捕捉的是一个跨 cluster 的 insight,只是因为当时没有足够多的相关卡片让 link 密度显现出来。反过来,有些高频出现的主题(比如”prompt engineering 技巧”),数据信号很强,但直觉告诉我它们缺乏持久价值——两个月后模型更新就过时了。
这不是说数据没用。数据是起点:cluster 的涌现、link 的密度、tag 的分布,帮你快速定位 landscape。但最终决定章节走向的,是那种”这里有一个值得深挖的 pattern”的嗅觉。数据告诉你地形,直觉告诉你方向。 对于不可逆的结构决策(这章要不要、这个角度对不对),值得给直觉更多权重——这是一扇单向门,走错了回头成本很高。
Step 3: 多 agent 并行扩展成 draft
有了核心卡片和顺序之后,扩展成完整章节的工作不是我一个人做的——而是交给了一支硅基写作团队。这就是下一节的内容。
3. 生产线:4 Writer Agents + 3 Role Reviewers + 1 Human Architect
这是这本书最 meta 的部分:写书的过程完全复用了第三章(multi-silicon empowerment)和第四章(autonomous operation)的方法论。
并行写作:4 个 Writer Agent
每个章节的初稿由 4 个独立的 writer agent 并行生成。4 个 agent 拿到相同的输入——cluster 里的核心卡片、narrative arc、目标读者画像、语调要求——但彼此的 session 完全隔离。
为什么要 4 个而不是 1 个?原因和第三章讲 Spawn 模型时一样:session 隔离产生独立视角。 同一组卡片,不同的 agent 会选择不同的切入角度、不同的展开顺序、不同的案例侧重。4 个初稿不是 4 个副本,是 4 个 variation。
我的工作是从 4 个 variation 里选最好的骨架,然后把其他版本里的好段落移植过来。这比从零开始写快得多,也比只用 1 个 agent 的输出质量高得多。
三角色 Review:编辑、技术审稿人、读者
每一章的 draft 完成后,进入 3-role review。三个 reviewer agent 各自独立评审:
- 编辑:看文字质量、结构节奏、与全书的一致性
- 技术审稿人:看技术描述的准确性、案例的真实性、术语的精确性
- 读者:看是否有趣、是否想继续读、是否想推荐给朋友
三个角色的 session 同样隔离——reviewer 之间看不到彼此的评审意见。这就是第二章讲的 independent review 原则:reviewer 之间不能互相污染,否则会收敛到 groupthink。
每个角色用 🔴🟡🔵 标注发现的问题,按严重程度排序,最终合并成一份 review 报告。然后我作为 human architect 做仲裁——哪些修改接受,哪些驳回,哪些需要进一步讨论。
这个三角色 review 流程,就是你正在读的这一章经历的流程。 Meta 到这个程度。
人类的角色:架构师,不是打字员
在整个流水线里,我做且只做三件事:
素材选择:227 张卡片里选哪些进哪一章。AI 不知道哪些教训对读者最有价值,因为它没有”目标读者是谁”的直觉。
观点形成:每一个工程判断——“Auth 和 Data Access 必须分离”、“Smoke test 必须包含功能验证”——都是我在实践中形成的。AI 可以帮我把观点说清楚,但观点本身不是 AI 产生的。
删减与语调:AI 倾向于保留所有内容(更多内容 = 更完整),我删掉了大约 40% 的 draft 内容。AI 默认中性礼貌,这本书需要第一人称、直接、有攻击性——去掉 hedging,加上 assertion。删减和语调是创作的核心,AI 做不了。
一个真实案例:第四章是怎么从卡片变成章节的
以第四章(Autonomous Operation)为例。它的 cluster 包含 28 张卡片,涵盖 micro-management vs macro-delegation、tick budget、termination condition、OPC pipeline 等主题。
memex search --tag autonomous --tag pipeline 先拉出主干卡片。然后 link traversal 找到了关联卡片——“convergence check” 链接到 “测试可信度”,“tick budget” 链接到 “resource management”。这些交叉链接帮我发现了章节内部的因果关系:你得先理解 harness(约束),才能理解为什么可以放手让 agent autonomous run。
4 个 writer agent 各写了一版初稿。Agent 1 从 OPC 的一天开始叙事,Agent 2 从”三个阶段”的框架切入,Agent 3 从一个具体的 failure case 开场,Agent 4 从行业对比入手。最终我选了 Agent 2 的框架(三阶段递进最清晰),但把 Agent 1 的 OPC pipeline 段落和 Agent 3 的 tick budget 案例移植了过来。
3-role review 在这一章发现了一个关键问题:技术审稿人指出”convergence check 仍然需要人在 loop 里”这个判断需要 qualify——在什么条件下需要?有没有 partial automation 的可能?这个反馈直接导致了终稿里那段关于 “plan decomposition → execution → verification → convergence check → auto-termination” 链条的分析。
从 28 张卡片到终稿,整个过程大约 6 小时。 其中 4 小时是 AI 在工作(并行写作 + review),2 小时是我在做决策(选骨架、移植段落、仲裁 review)。
4. 经济学:token 是最便宜的生产要素
整本书(前言 + 7 章)从卡片检索到终稿的 AI token 消耗:
- 卡片检索与 clustering:约 50 次
memex search/read调用 → ~100K tokens - 并行 Draft 生成:每章 4 个 writer agent × 平均 8K tokens output → ~230K tokens
- 3-role review:每章 3 个 reviewer × 平均 6K tokens → ~130K tokens
- 修改迭代:每章平均 3 轮人类驱动的修改 → ~140K tokens
总计:约 600K tokens,API 成本约 $10-15。
这个数字说明了一件事:瓶颈不是生成,是判断。 花在 AI 上的钱是 $15,花在我自己身上的时间是几十个小时——选择、排序、删减、调整语调、确保技术准确性、仲裁 review 分歧。AI 便宜到可以忽略,人的判断力才是稀缺资源。
这和第四章的结论一致:autonomous operation 的瓶颈不在 execution,在 convergence check。写书的瓶颈不在写,在判断什么该留、什么该删、什么该改。
5. 方法论的闭环
现在回过头看整个过程,它映射到了本书的四条因果链:
Harness → Autonomous → Empowerment → Output。
Harness 层:卡片的原子格式(YAML frontmatter + wiki-links + tags)就是写作的 harness——它约束了每一条素材的结构,保证了 agent 可以无歧义地 parse 和处理。3-role review 的流程规范就是 mechanical gate——不依赖 agent 的自觉性,而是用流程保证质量。
Autonomous 层:4 writer agents 并行写作、3 reviewer agents 独立评审——这些都是 autonomous operation。我不在 loop 里盯着每个 agent 的每一步输出。我设计 pipeline,按下启动键,等结果。
Empowerment 层:每个 agent 拿到的不只是”写第四章”的任务,而是完整的能力装备——核心卡片、narrative arc、语调要求、目标读者画像、全书结构 context。这就是第三章讲的 capability empowerment,不是派活,是武装。
Output 层:一个人 + 一支硅基团队,几十个小时,一本书。这不是因为我打字快,是因为我不在 loop 里——和第四章的”90 分钟 21 个 work unit”是同一个逻辑。
约束越好,自由越大。 卡片的结构化约束了素材质量,harness 约束了 agent 行为,review 流程约束了产出标准。正因为约束足够好,我才能把写书这件事交给一支硅基团队去 autonomous 执行。
但闭环也是陷阱。
纳瓦尔有一个登山比喻:你爬上了第一个山头,觉得视野不错,但更高的山在另一条山脊上。要到那里,你必须先下山——放弃已有的海拔——才能上更高的山。大多数人不愿意下山,因为沉没成本太真实了。这就是路径依赖:过去的成功锁定了未来的视角。
这本书的 V1 就是第一个山头。V1 建立了框架——从 Zettelkasten 到 multi-agent,从 harness 到 autonomous operation——写出来之后,结构很自洽,逻辑闭环了。但闭环本身也是锁定。V1 的 187 张卡片定义了问题域的边界,V1 的章节结构定义了叙事的路径,你开始不自觉地用已有框架去”安放”新经验,而不是让新经验挑战框架。
V2 是一次有意识的下山。新增的 40 张卡片不只是”更多素材”,它们中有些直接挑战了 V1 的假设。把它们融入不是在已有章节里”加段落”,而是重新审视每一章的核心 claim 是否还成立。有些成立但需要 qualify,有些需要重写,有些需要整章重组。
这也是为什么我对”精读一百本比泛读一千本”这个观点深有体会。TL;DR 式的浅层知识——读个摘要、看个速成视频——感觉在积累,实际在加深路径依赖。你用旧框架快速”理解”了新信息,但从未真正让新信息动摇过旧框架。深度阅读和深度实践的价值在于:它们会让你 uncomfortable,让你发现自己错了。Growth mindset 不是”我愿意学新东西”,而是”我愿意否定旧东西”。
最后的话
这本书从 227 张卡片开始,经过 search → cluster → parallel draft → 3-role review → human arbitration,变成了你手上的 7 章 + 前言。
方法只是杠杆,原始素材才是支点。227 张卡片背后是几千小时的工程实践——踩过的坑、做过的决策、总结过的 pattern。这些时间不能被任何工具替代。AI 可以把 227 张卡片变成一本书,但它不能帮你积累那 227 张卡片。
前言里我说过:读完这本书,你会拥有一套 harness 设计框架、一个多 agent 协作方法论、以及一种新的思维方式。现在你读完了。这些东西是否已经变成你的——取决于你接下来做什么。
不是读更多的书。是开始实践。
写你的第一张卡片。踩你的第一个坑。设计你的第一个 harness。启动你的第一支硅基团队。
一个人,一支硅基团队。从这里开始。