自主运行 | Touchskyer's Thinking Wall

上一章我们武装了一支 AI 团队——spawn vs delegate、显式路由、并行冲突管理。但拥有团队只是起点。一支装备精良的团队如果每一步都需要指挥官拍板，它的吞吐量仍然受限于指挥官的注意力带宽。这一章解决的问题是：怎么让这支团队自主运转，而你只在关键节点介入？

三个阶段：Micro-Management → Macro-Delegation → Autonomous Operation

大多数人用 AI 写代码的方式是这样的：写一句 prompt，等 AI 吐出一段代码，肉眼审一遍，不满意就再改 prompt。一来一回，一个下午过去了，产出大概相当于一个中等水平程序员一小时的活。

这不是 AI-native 工作方式。这是把 AI 当 Stack Overflow 用。

我经历了三个阶段，每个阶段之间有一道认知门槛。

第一阶段：Micro-Management。 每一步都盯着。写个函数，审一遍；改个 bug，审一遍；加个测试，审一遍。人是瓶颈，AI 是打字机。这个阶段的 token 效率大约是 1:1——你花多少时间看，AI 就干多少活。

第二阶段：Macro-Delegation。 你学会了把任务打包。不是”帮我写个函数”，而是”这个 module 的 spec 在这里，帮我实现，包含测试和错误处理”。你开始信任 AI 能在一个较大的范围内自主决策。token 效率跳到 1:5 甚至 1:10。

第三阶段：Autonomous Operation。 你不再一个一个任务地喂。你设计一条 pipeline，让 AI 自己拆解计划、执行、验证、迭代。你的角色从 operator 变成 architect + reviewer。这个阶段，一个人可以在 90 分钟内完成 21 个 work unit——不是因为你打字更快了，而是因为你不在 loop 里了。

这三个阶段是能力递进的关系：你先学会驾驭单个 AI（前两章的 protocol 和 harness），然后学会协调多个 AI（第三章的 multi-silicon），最后才有条件让整个系统自主运转（autonomous operation）。每一层都是下一层的前提。

一个人之所以能成为一支团队，不是因为 AI 变强了，而是因为你学会了不挡路。

OPC：一个人的流水线

OPC 自主运行 Pipeline：从 Plan 到 Cron Loop

OPC（One-Person Company）不是一个浪漫的概念，它是一个工程问题：一个人怎么把自己变成一条 pipeline？

传统软件团队的 pipeline 大概长这样：

PM 写 spec → 工程师实现 → QA 测试 → Tech Lead review → 部署

五个角色，至少三天。在 OPC 里，这条 pipeline 压缩成：

你写 spec → AI 实现 → AI 测试 → AI review → 你做最终决策 → AI 部署

一个人，但你不是在做所有人的活。你只做两件事：定义问题 和 做最终决策。中间的实现、测试、review 全部委托给 AI。

换个说法：OPC 的本质是一个建筑师管理一支砌砖机器人团队。

Coding agent 带来的真正转变不是”写代码更快”，而是角色的根本重定义——你从执行者变成了设计者。砌砖工关心的是每块砖放得正不正，建筑师关心的是这面墙该不该存在。当 AI 承担了砌砖的工作，“编程”这件事没有消失，但你学的不再是语法和 API，而是逻辑分解能力——怎么把一个模糊的目标拆成 AI 能独立执行的清晰任务。

这意味着开发变成了异步协作。你不再手把手写函数，你给 agent 的是任务而不是问题。“帮我优化这个页面性能”是问题，“把首屏 LCP 降到 2.5 秒以内，方法限定为图片懒加载和 CSS 关键路径提取”是任务。前者 agent 会来回问你十次，后者 agent 可以独立跑完。

OPC 时代，每个人都在变成 CTO。不是因为你懂了更多技术栈，而是因为你在做的事情和 CTO 本质上一样：定义架构、分配资源、做 go/no-go 决策。唯一的区别是你的”团队”是硅基的。

这里有一个关键的架构缺失，我在实践中踩过坑：从 plan decomposition 到 auto-termination 之间缺一层。什么意思？AI 可以把一个大任务拆成小任务（plan decomposition），AI 也可以判断一个小任务是否完成（completion check）。但是，AI 不擅长判断 “整体是否已经收敛到可以停下来”。

这不是 AI 的智力问题，这是一个 feedback loop 设计问题。当你把 decomposition、execution、verification 全部自动化之后，你需要一个显式的 termination condition。否则 AI 会在已经足够好的方案上继续打磨，或者在一个死胡同里反复尝试。

我的解决方案很朴素：给每个 autonomous loop 一个 tick budget。14 ticks 能做多少事，就做多少事。到了就停。人类 review 整体结果，决定是否启动下一轮。

这个 gap 是真实存在的。如果你想做 24 小时级别的 autonomous operation，plan decomposition → execution → verification → convergence check → auto-termination，这条链上的每一环都得可靠。目前的 LLM 在前三环表现不错，但 convergence check 仍然需要人在 loop 里——至少在 2026 年的今天是这样。

Iterative Review：Devil’s Advocate 的价值

Review 的必要性和 independent review 的机制，前两章已经充分论证。这里不再重复”为什么要 review”，而是分享一个在 OPC pipeline 中额外有效的模式：多轮 review amplification。

具体来说，在标准的 correctness review（Round 1）和 robustness review（Round 2）之后，加一轮 Devil’s Advocate（Round 3）。注意：这里的 Devil’s Advocate 是独立的 subagent（spawn 一个新 session），不是第二章批评的 same-session persona。区别至关重要——独立 session 没有前序 context 的锚定效应，能真正从对立面审视。指令很简单：“你的任务是干掉这个设计。找到一个理由证明这个方案从根本上是错的。”

关键在于每一轮的 prompt 都包含前几轮的 findings——信息不丢失，视角在累积。

大多数时候，Round 3 找不到致命问题——这恰恰证明了前两轮的有效性。但在我的实践中，Round 3 确实干掉过一个差设计。那个设计在 correctness 和 robustness 两轮都通过了，因为它在技术上是正确的、在 edge cases 上是健壮的。但 devil’s advocate 视角发现了一个根本性问题：这个设计解决的是一个不应该存在的问题。上游的数据模型如果调整一下，这整个 module 都不需要存在。

没有 Round 3，这个设计会被实现、被测试、被部署，然后在三个月后的重构中被整体删掉。

三轮 review 的成本大约是单轮的 3-4 倍 token，但增量视角带来的缺陷检出是非线性的。这个方法同样适用于非代码内容——文档、pitch deck、技术博客。让 AI 分别从不同角色审同一篇文章，交叉信号（多个角色同时标记的问题）是最高优先级。

Cron Loop：自动化的产品迭代

Iterative review 解决的是质量问题。但 OPC 还有一个更大的问题：迭代速度。

传统团队的迭代节奏是以周为单位的。周一 planning，周五 demo，中间五天写代码。一周一个 iteration。如果你是一个人，按这个节奏，你永远追不上一个五人团队。

我的解决方案是 cron loop：把产品迭代变成一个自动化的循环，每 30 分钟一个 cycle。

但在讲具体流程之前，有一个更根本的问题：cron loop 每轮识别出一堆问题，怎么决定做哪些、不做哪些？

答案是 EDAB 框架——Eliminate → Delegate → Automate → Batch。注意顺序：这是一个漏斗，每一步都在减少下一步的输入量。

E（消除）： 第一步不是优化执行，而是质疑存在。这个任务真的需要做吗？如果上游设计调整一下，这个 bug 根本不会出现——那正确的做法是改上游，不是修 bug。跳过 E 直接搞 A（自动化），就是在高效地做不该做的事。

D（委托）： 消除不了的，能不能交给 AI 自主完成？大部分 cron loop 里的问题——UI 修正、测试补全、文档更新——天然适合委托。

A（自动化）： 需要人参与但可以模板化的，写成 script 或 prompt template，下次自动执行。

B（批处理）： 实在需要人工决策的，攒到一起批量处理，减少 context switch。

OPC 每天面对海量决策，EDAB 是优先级裁剪的利器。没有这个漏斗，你的 cron loop 会变成一台没有筛子的流水线——什么都处理，效率反而更低。

一个 cycle 的流程就是 EDAB 的实例化：

走查当前状态 → 识别问题 → EDAB 裁剪 → 并行实施（AI 执行） → 验证 → 收敛

30 分钟。不多不少。如果一个问题 30 分钟解决不了，它会被拆成更小的问题进入下一个 cycle。

这个 loop 的关键设计决策是 并行实施。在一个 cycle 里，AI 不是串行地一个接一个修问题，而是同时处理多个独立的修改。这在技术上很简单——开多个 session 就行。但在认知上需要一个转变：你不再逐个审查每个修改，你审查的是 整体状态的变化。

一个真实的数据点：5 轮 cron loop，总共 150 分钟，完成了一个产品从 “勉强能用” 到 “可以给用户看” 的跨越。5 轮迭代涵盖了 UI 修正、API 重构、错误处理、文档更新和性能优化。

但有一个重要的观察：后期递减是正常的。

前两轮 cron loop 的产出最高，因为低垂的果实最多。第三轮开始，每轮的 marginal improvement 明显下降。到第五轮，你修的基本都是 polish 级别的问题。

这不是系统出了问题，这是收益递减的自然规律。正确的做法不是继续跑第六轮、第七轮，而是 停下来，重新定义问题。也许产品需要的不是更多 polish，而是一个新 feature。也许 UI 已经够好了，瓶颈在 onboarding flow。

Cron loop 给你的是速度。但速度本身不是目的。知道什么时候停下来，比跑得快更重要。

诚实的能力边界：什么还做不到

我见过太多 AI 布道师，说什么 “AI 可以替代整个工程团队” “一个人顶十个人”。这些话在特定条件下是对的，但如果你真信了，你会在最痛的地方摔跤。

让我给你一个诚实的数据点。

我跑过一次 24 小时 autonomous operation 的边界测试。不是 demo 级别的，是真实产品、真实代码库、真实复杂度。结果：5 个 reviewer（不同角色、不同视角）在 24 小时 autonomous 产出中找到了 14 个 bug。样本量是单次实验，不具备统计显著性，但方向性结论是清晰的。

14 个。不是 14 个 typo，是 14 个会影响用户的 bug。包括：

逻辑错误：条件判断写反，导致 edge case 下的错误行为
集成问题：两个独立实现的 module 在接口上的假设不一致
遗漏：spec 里明确要求但实现中被跳过的功能点
回归：修一个 bug 的同时引入了另一个 bug

这些不是 AI “不够聪明” 导致的。这些是 autonomous operation 在长时间运行时必然会出现的问题。原因很清楚：

Context drift。 随着 conversation 变长，AI 对早期决策的记忆会退化。它不会忘记——context 还在——但它的注意力会偏向最近的内容。
Error compounding。 在 supervised mode 下，人类会在每一步抓住小错误。在 autonomous mode 下，一个小错误会传播到后续步骤，被当作正确的前提继续构建。
Specification gap。 再好的 spec 也有没写到的地方。在 supervised mode 下，人类会用常识补上这些 gap。在 autonomous mode 下，AI 要么猜（经常猜错），要么跳过（留下隐患）。

这些数据告诉我几件事：

第一，autonomous operation 的时间尺度目前以小时计，不以天计。 90 分钟内完成 21 个 work unit，质量可控。24 小时无监督运行，质量不可控。这个边界在 2026 年还没有被突破。

第二，reviewer 的数量和多样性比 AI 本身的能力更重要。 5 个 reviewer 找到 14 个 bug，不是因为每个 reviewer 都很厉害，而是因为他们看的角度不同。交叉检测的效果远超单一视角的深度审查。

第三，不要在 root cause 没修的时候跑 eval loop。 这是我花了真金白银学到的教训。有一次我发现 AI 产出的代码有一个系统性的问题——不是偶发的 bug，是一个 prompt 设计上的缺陷导致的 pattern。我当时的选择是：先跑一轮完整的 eval loop，量化问题的严重程度，然后再修。

结果：23M tokens，约 $162（基于当时的 LLM 定价，具体成本因模型和时间点而异），全部浪费。

因为 eval loop 的每一轮都在评估一个 已知有缺陷的系统。评估结果只会告诉你 “是的，它确实有问题”——但你已经知道它有问题了。正确的做法是 先修 root cause，再跑 eval。这看起来是常识，但当你被 autonomous operation 的惯性裹挟时，“先让系统跑起来再说” 是一个极其诱人的陷阱。

$162 不多。但它教会我一个原则：autonomous 不等于 unattended。你可以让 AI 自己跑，但你不能不看方向。

实战：从 10-check spike 到 npm-publishable 的 14 ticks

让我讲一个完整的实战案例。

任务：把一个内部的 CLI 工具从 “能跑” 变成 “能发 npm”。具体来说，就是从一个 10 个 check 都没过的 prototype，变成一个 test coverage 充足、文档完整、CI 绿灯、可以 npm publish 的 package。

我用 OPC loop protocol 跑这个任务。14 ticks，90 分钟，21 个 work unit 完成。

逐 tick 记录：

Tick 1-3：基础设施。 修 CI pipeline，补 tsconfig，配 ESLint。这些是 AI 最擅长的工作——模式化、规则明确、不需要创造性判断。3 个 tick，6 个 work unit。

Tick 4-7：核心功能修复。 10 个 failing check 里有 4 个是逻辑错误。AI 逐一修复，每修一个跑一次完整的 test suite 确认没有 regression。4 个 tick，5 个 work unit。

Tick 8-10：测试补全。 原始 prototype 的 test coverage 大约 30%。这三个 tick 把它拉到 85%。AI 写测试的效率非常高，因为它可以从实现代码直接推导出需要覆盖的 case。3 个 tick，5 个 work unit。

Tick 11-13：文档和 packaging。 README、CHANGELOG、package.json 的 metadata、npm publish 的 prepublish script。3 个 tick，4 个 work unit。

Tick 14：最终验证。 跑完整的 CI pipeline，确认所有 check 通过。dry-run npm publish，确认 package 结构正确。1 个 tick，1 个 work unit。

几个观察：

Work unit 的分布不均匀。 前 3 个 tick 完成了 6 个 unit（均值 2.0），中间 7 个 tick 完成了 10 个 unit（均值 1.4），最后 4 个 tick 完成了 5 个 unit（均值 1.25）。递减曲线清晰可见。

Tick 的时间不均匀。 基础设施的 tick 大约 4-5 分钟一个（AI 执行快，决策简单）。核心功能修复的 tick 大约 7-8 分钟一个（需要理解上下文，可能需要多次尝试）。最终验证的 tick 最长，大约 10 分钟（等 CI 跑完）。

14 ticks 是否足够？ 对这个规模的任务，足够了。但如果任务更大——比如从零构建一个完整的 SaaS——14 ticks 只够完成 scaffolding。要测试 24 小时级别的 autonomous operation，需要更大的任务。 这也是为什么我说当前的能力边界是 “小时级” 而不是 “天级”。

这个案例的意义不在于 “90 分钟发了个 npm 包”。意义在于：整个过程中，我没有写一行代码。 我写了 spec，我做了 tick 之间的优先级决策，我做了最终验证。但实现、测试、修复、文档——全是 AI 做的。

这就是 autonomous operation 的含义。不是 AI 自己在跑，是你设计了一个系统，AI 在这个系统里自己在跑。

效率的阴影：当 Agent 杀死摩擦

写到这里，我需要诚实地面对一个不舒服的问题。

前面整章都在讲效率——cron loop 的速度、parallel execution 的吞吐、EDAB 的裁剪。但人类最伟大的创造，几乎没有一个来自高效的流水线。它们来自绕路、对抗、摩擦。

达芬奇画《最后的晚餐》用了三年，中间大量时间在”浪费”——盯着墙壁发呆、和修道院院长吵架、跑去研究光学。如果给达芬奇一个 cron loop，30 分钟一个 cycle，他可能会更快地画完一幅画，但那幅画不会是《最后的晚餐》。

AI 提升效率的方式，本质上是消除摩擦。 但创造力需要摩擦作为燃料。当你手动调试一个 bug 两小时，你对系统的理解会深入到 AI 帮你秒修时永远达不到的层次。当你和同事为一个架构决策争论半天，最终方案的质量远超任何一个人独立思考的结果。

OPC 模式下，你不再和人争论，不再手动调试，不再被迫在限制条件下创造性地解决问题。一切都被优化掉了。效率上去了，但某种东西也丢失了。

AI 原生组织面临的最深层挑战不是技术性的，而是哲学性的：当 agent 承担了所有执行层面的摩擦，人必须主动制造新的摩擦。

怎么制造？几个实践：

故意不用 AI 做某些事。 每周留出固定时间手写代码、手画架构图。不是因为效率更高，而是因为手工过程中的”低效”正是深度思考发生的地方。
设置 Devil’s Advocate 不是为了找 bug，而是为了制造冲突。 前面讲的 Round 3 review，其深层价值不在于找到技术缺陷，而在于强迫你从对立面重新审视自己的假设。
定期”退化”。 关掉 autonomous loop，回到 micro-management 模式，亲手走一遍完整流程。你会发现新的 insight，因为你重新接触了被自动化遮蔽的细节。

这不是怀旧，不是反技术。这是一个工程化的认知策略：在 AI 优化掉的摩擦中，识别哪些是纯粹的浪费（应该消除），哪些是创造力的燃料（应该保留甚至放大）。

效率和创造力的张力，是 autonomous operation 的永恒议题。不要假装它不存在。

本章小结

这一章的核心论点可以压缩成三句话：

1. Autonomous operation 是工程问题，不是智力问题。 OPC loop 的 tick budget、cron loop 的固定 cycle、iterative review 的视角叠加——这些都是可设计、可调参、可复现的 pipeline。AI 不需要”更聪明”才能自主运转，你需要更好的系统设计。

2. 放大效应的杠杆点是并行和结构，不是速度。 一个人 90 分钟完成 21 个 work unit，不是因为 AI 打字快，而是因为并行执行消除了串行等待，结构化的 review 视角替代了重复的单点审查。速度是结果，不是原因。

3. 边界意识是 autonomous operation 最重要的能力。 小时级可控，天级不可控。知道什么时候停下来比跑得快更重要——无论是 cron loop 的收益递减，还是 $162 eval loop 的沉没成本。Autonomous 不等于 unattended。

下一章，我们把视角从个人拉到市场。如果 autonomous operation 是个人的能力放大器，那 agent 时代的创业机会在哪里？剧透：不在你以为的地方。