Skip to content
Touchskyer's Thinking Wall
S1E05
6 min read

硅基团队 S1E05: 睡觉的时候让 AI 替我干活

硅基团队 S1E05

四月十三号下午四点,dream-works 展示站第一版部署完毕。我打开页面看了一眼:

「这个设计太松散了。不紧致。」

上集说过的设计问题依然没解决——颜色、间距、字体仍然是一团糟。

然后我做了一个不寻常的决定:不自己一条条修,而是启动 OPC 的 tick-based loop,设好定时任务(cron)每 30 分钟触发一次,跟 AI 说「按照这些标准持续改进」。

然后去睡觉了。

什么是 Tick-based Loop

想象一个洗碗机。你把脏碗放进去,设好程序,按下开始。你不需要盯着它——它会自己洗、冲、烘,完成后停下来。

Tick-based loop 就是 AI 的洗碗机模式。每个「tick」是一个独立的工作周期:

  1. 读取状态文件——了解上一轮做到了哪里
  2. 决定下一步做什么
  3. 执行一个小步骤
  4. 更新状态文件
  5. 退出,等待下一次 cron 触发

每个 tick 都是独立的 session,不受 context window 的限制。即使某个 tick 失败了,下一个 tick 可以从状态文件恢复。这解决了 AI 最大的硬限制——context 用完了就得重新开始。

通宵运行的真相

从下午四点起,定时任务每 30 分钟触发一次。到晚上十点半我回来检查时,AI 已经无人监管地跑了 6 个半小时——算上后续的人工介入和继续运行,整个 loop 前后持续近 8 小时。

听起来很美对吧?但数据告诉的是另一个故事。

从第 5 个 tick 到第 9 个 tick,质量分数全部是 0.487。Preview 内容完全一致——AI 在反复做同样的事情。它要么在某个点卡住了,要么在不断重复已经完成的工作。

没有人类在场校正方向时,AI 会在错误的方向上 spin。 每个 tick 独立运行,但如果状态文件里的目标定义不够精确,AI 会反复做类似的事情而不知道自己已经做过了。

晚上十点半,我回来了。看了看 AI 的产出,发现了几个问题:它自作主张创建了一个 .harness-dw 目录(没人授权这个命名规范);CSS 改了十几轮但始终在「宽松」和「紧凑」之间来回摆动。

然后我给了一句反馈:「landing page 太松散,图片大小要统一,上面图片下面文字,fit the frame。」

分数从 0.487 跳到了 0.68。

一句话。6 个半小时 vs 一句话。

14 小时建 Logex

但这不意味着 loop 没用。第二天的实验证明了这一点。

四月十四日,我启动了另一个 loop——这次目标更明确:建一个叫 Logex 的产品。验收标准写得很具体:文章列表、Markdown 渲染、左侧导航、分享功能、端到端测试全部通过。

然后又去睡觉了。

这次的结果好得多。整个过夜阶段(8 小时),质量分数稳定在 0.58 左右。不是很高,但很。AI 没有在某个点上卡住,而是持续地、增量地把功能一个个实现。

第二天早上起来,UI 已经基本成型了。再花了 6 小时做修正和收尾。总计 14 小时,Logex 从零到可用。

质量分数折线:0.487 的平台期和 0.68 的跳跃

两次实验的区别

为什么第一次 loop 卡在 0.487,第二次稳在 0.58?

差别在于任务的性质

第一次的任务是「改进设计」——这是一个开放的、需要审美判断的目标。什么叫「不松散」?什么叫「紧致」?AI 没有这个参照系。它能按规则改间距,但不知道改完是不是好看。每个 tick 都在做调整,但没有一个客观标准告诉它「够了」。

第二次的任务是「实现功能列表」——这是一个封闭的、可检验的目标。文章列表要么能显示要么不能。Markdown 渲染要么对要么不对。每个 tick 完成一个具体功能,状态文件记录「还剩哪些没做」,下一个 tick 接着做。

AI 擅长增量打磨,不擅长创造性跳跃。

增量打磨是什么?把一个功能从「不能用」变成「能用」。把一个已知的 bug 修好。把一个明确的需求实现出来。这些都有客观的完成标准,tick-based loop 可以一步步逼近。

创造性跳跃是什么?看了一眼页面说「太松散了」——这个判断包含了审美、经验、对用户心理的理解,AI 没有这个能力。它能执行「把间距从 24px 改成 16px」,但不能自己发现「这里应该更紧凑」。

这就是为什么分数在 0.487 卡了整整 6 个半小时,却在人类回来说了一句话之后跳到了 0.68。那句话的信息密度比 AI 6 个半小时的所有 commit 加在一起都高。

质量天花板

后来在另一个项目(Project P)里,我们又验证了同一个结论。

Baseline 67%。经过 12 个 tick 的 loop 优化,分数达到 71.9%——涨了 4.9 个百分点。听起来不错?但分析显示,这已经是理论最大值的 94%。继续调 prompt 的 ROI 趋近于零。

真正的突破需要什么?不是更多的 tick,而是结构性的变化——换更好的 rubric、升级底层 template、重新设计 delegation 逻辑。这些都不是 loop 内部能做到的——它们需要跳出 loop 的视角。

这让我想到一个比喻:loop 就像一条河。河水会自动往低处流,找到局部最优的路径。但河水不会自己挖一条新河道——那需要挖掘机,需要一个站在地图前面看全局的人。

增量打磨 vs 创造性跳跃

跑了几十次 loop 之后,一条规律浮出水面。

Loop 能高效处理的任务有一个共同特征:你能写出「做完了」的精确定义。 实现一个功能列表、修一组已知 bug、按规范调整样式——这些都是增量打磨。每个 tick 离目标更近一步。

Loop 处理不了的任务也有一个共同特征:需要人类判断「够了」。 设计语言、架构方向、产品定位——这些是创造性跳跃。上面的实验已经证明:AI 在 0.487 卡了 6 个半小时,一句人类反馈就跳到 0.68。

最大的收益不是「AI 更快」,而是「AI 利用了人类的下线时间」。 从每天 8 小时有效工作,变成了 22 小时——剩下的 14 小时,AI 在替你做增量打磨。

就像洗碗机。它不会比你洗得更好。但你在睡觉的时候,碗已经洗好了。


硅基团队 S1: AI 能写代码,凭什么信它? ← S1E04: 让框架长出骨骼 | S1E06: $92 买了一个产品 →

留言