Skip to content
Touchskyer's Thinking Wall
7 min read
--

Agent 时代的持续进化

回顾:认知阶梯

去年我画了一张「认知阶梯」的图,把对 AI/Agent 的认知分成五级:从「知道」到「认真阅读过」到「Demo」到「Product」再到「Business」。

认知阶梯

当时我们团队在前三级做得很好 —— 大量研讨、前沿技术尝试、内部 incubation。但 L4(生产环境上线),我们触达的很少。绝大部分尝试止步于 L3。

L3 的陷阱

用 LLM/Agent 做东西,前 60% 来得很快 —— 跑通 happy path,觉得自己很厉害。但剩下的 40% 才是真正困难的,而且每次大模型升级,这 40% 都在变。

L3 到 L4 之间有一道鸿沟。

一年过去了

一年后的今天,两件事情发生了。

第一,我们跨过了 L4。 我们发布了 Societas —— Microsoft first agent product。99% AI Coding,build on top of open source stack,在 GAIA benchmark 上拿到了业界领先的成绩。从 L3 到 L4 的那道鸿沟,我们真正跨过去了一次。

Societas — Office Agent

Societas — GAIA Benchmark

但比排名更重要的是,这个过程中我们深刻体会到了那 40% 的重量:

  • Orchestrator 的鲁棒性和 model 同样重要。 Long run agent task 的可靠性,不能只靠模型升级。真正决定成败的是编排层 —— 错误恢复、状态管理、超时处理。模型变强了,orchestrator 不行,一样崩。
  • Evaluation 比 generation 难。 让 Agent 生成一个结果很容易,但如何判断这个结果是否足够好、是否可以交付给用户 —— 这个评估体系的构建,比生成本身难一个数量级。
  • 工程重心在迁移。 从 prompt engineering + context engineering 到 context engineering + harness engineering。Prompt 的边际收益在递减,真正的杠杆在 context 的组织方式和 harness 的工程化 —— 如何喂对的信息、如何兜住 Agent 的行为边界。

第二,业界在加速。 Agent 的能力边界在被不同方向同时拓展:

  • Claude Code + Cowork:Agent 可以 touch 的边界从 cloud 扩展到 browser,再到 local。不再是只能写代码,而是可以操控你整个工作环境。
  • OpenClaw:更极端的方向 —— OS level agent。Agent 不再是你的工具,而是接管了操作系统层面的编排。

这些变化让我意识到:去年的认知阶梯模型有一个隐含的假设 —— 只要往上爬就行。但现实是,光往上爬不够了。

新框架:赛道 × 漏斗

Agent 时代的持续进化

今年我画了一张新图。左侧是三条并行的赛道,右侧是一个验证漏斗。

三条赛道:你在怎么进化?

L1 — 用得更好(Use Better)

提升效率,创造更多价值。这是最基础的一条,但天花板远比大多数人想象的高。真正「用得好」不是会打几个 prompt,而是让 Agent 深度嵌入你的工作流,改变你做事的方式。

L2 — Remix

沉淀定制化能力:Skill / Command / Tool。当你用得足够多,踩过足够多的坑,自然会开始把经验固化。不是为了炫技,是因为你不想重复踩坑。这一层的核心是 从使用者变成创造者 —— 你开始为 Agent 生态贡献能力。

L3 — Agent Loop

构建自己的编排层。不满足于用别人的 Agent,开始自己编排 Agent 的行为。从 prompt engineering 到 agent engineering,从调用工具到设计工具被调用的方式。

三条赛道不是阶梯 —— 它们是并行的,相辅相成的。你可以同时在三条赛道上跑。用得更好的经验会反哺你的 Remix,Remix 的沉淀会让你更清楚该怎么 Build Agent Loop。

验证漏斗:如何验证你的认知?

这是今年我想重点强调的:你在哪一层,不是你自己说了算。

自我满足 —— 自己觉得好。这对应去年 L3 那个 60% happy path 的愉悦状态。Demo 跑通了,自己觉得很牛。但这是最危险的状态,因为你不知道你不知道什么。

产品化 —— 找到用户。有人真的在用你做的东西。不管是你的 Agent workflow,你的 Skill,还是你的 Agent Loop —— 它经受住了真实用户、真实场景的考验。这对应去年的 L4。

商品化 —— 找到客户。不只是有人用,有人愿意为此付费。你创造的价值可以被定价。这对应去年的 L5。

能力 × 验证 矩阵

把赛道和漏斗交叉,就得到了一个 3×3 的矩阵:

能力 × 验证矩阵

用得更好RemixAgent Loop
自我满足熟练使用各种 Agent 工具,能快速出 demo攒了一些 Skill / Prompt,自己用着顺手搭了个 Agent Loop 跑着玩,POC 级别
产品化效率提升可量化,团队 adoption能力被团队/社区复用,被别人 fork 和迭代编排层在生产环境运行,有真实用户
商品化创造可计价的商业价值能力本身成为可售卖的产品编排层本身就是产品/平台

这个矩阵的两根轴,对应两个不同的问题:

  • 横轴(能力维度):你在怎么用 Agent?从「使用」到「创造」。
  • 纵轴(验证深度):你的认知经过验证了吗?从「自嗨」到「市场买单」。

大部分人 —— 包括一年前的我们 —— 集中在矩阵的左上角:用得不错,自己也挺满足的。

真正的进化,是向右下角移动。举两个例子:

  • 你天天用 Claude Code 写代码(用得更好 × 自我满足),某天你把踩过的坑固化成一个 Skill 分享给团队(→ Remix × 产品化)。从「自己爽」到「别人也在用」,你的认知被验证了。
  • 你搭了一个 Agent workflow 帮自己做 code review(Agent Loop × 自我满足),然后让整个团队用起来,跑在 CI 里(→ Agent Loop × 产品化)。这一步的代价是:你得处理所有 edge case,而不只是自己那几个 repo。

所以呢?

回到去年的那个核心焦虑:「你不知道你不知道什么」。

一年后我想补充的是:认知的差距,不只体现在你知道多少,更体现在 你的认知被验证了多少。去年我认真学习了 Lovable 的 prompts,一个看似宽泛、大而全的 prompts,实际上里面很多细节,真的踩过坑的人才能 resonate。那种「你不知道你不知道什么」的恐惧感,源于你的认知停留在了自我满足层。

Societas 教会我的是:跨过鸿沟一次不够。 Agent 时代的进化是持续的。模型在升级,工具在演化,能力边界在不断被拓展。你不能只跨一次沟,你需要一套持续进化的方法论。

三条赛道 + 验证漏斗,就是我目前的答案。

用得更好,Remix 出自己的能力,Build 自己的 Agent Loop。然后不断用产品化和商品化来检验:你的认知到底值不值钱。

这不是一个终点,是一个持续的循环。

留言