Agent 时代的持续进化

回顾：认知阶梯

去年我画了一张「认知阶梯」的图，把对 AI/Agent 的认知分成五级：从「知道」到「认真阅读过」到「Demo」到「Product」再到「Business」。

认知阶梯

当时我们团队在前三级做得很好 —— 大量研讨、前沿技术尝试、内部 incubation。但 L4（生产环境上线），我们触达的很少。绝大部分尝试止步于 L3。

L3 的陷阱

用 LLM/Agent 做东西，前 60% 来得很快 —— 跑通 happy path，觉得自己很厉害。但剩下的 40% 才是真正困难的，而且每次大模型升级，这 40% 都在变。

L3 到 L4 之间有一道鸿沟。

一年过去了

一年后的今天，两件事情发生了。

第一，我们跨过了 L4。 我们发布了 Societas —— Microsoft first agent product。99% AI Coding，build on top of open source stack，在 GAIA benchmark 上拿到了业界领先的成绩。从 L3 到 L4 的那道鸿沟，我们真正跨过去了一次。

Societas — Office Agent

Societas — GAIA Benchmark

但比排名更重要的是，这个过程中我们深刻体会到了那 40% 的重量：

Orchestrator 的鲁棒性和 model 同样重要。 Long run agent task 的可靠性，不能只靠模型升级。真正决定成败的是编排层 —— 错误恢复、状态管理、超时处理。模型变强了，orchestrator 不行，一样崩。
Evaluation 比 generation 难。 让 Agent 生成一个结果很容易，但如何判断这个结果是否足够好、是否可以交付给用户 —— 这个评估体系的构建，比生成本身难一个数量级。
工程重心在迁移。 从 prompt engineering + context engineering 到 context engineering + harness engineering。Prompt 的边际收益在递减，真正的杠杆在 context 的组织方式和 harness 的工程化 —— 如何喂对的信息、如何兜住 Agent 的行为边界。

第二，业界在加速。 Agent 的能力边界在被不同方向同时拓展：

Claude Code + Cowork：Agent 可以 touch 的边界从 cloud 扩展到 browser，再到 local。不再是只能写代码，而是可以操控你整个工作环境。
OpenClaw：更极端的方向 —— OS level agent。Agent 不再是你的工具，而是接管了操作系统层面的编排。

这些变化让我意识到：去年的认知阶梯模型有一个隐含的假设 —— 只要往上爬就行。但现实是，光往上爬不够了。

新框架：赛道 × 漏斗

Agent 时代的持续进化

今年我画了一张新图。左侧是三条并行的赛道，右侧是一个验证漏斗。

三条赛道：你在怎么进化？

L1 — 用得更好（Use Better）

提升效率，创造更多价值。这是最基础的一条，但天花板远比大多数人想象的高。真正「用得好」不是会打几个 prompt，而是让 Agent 深度嵌入你的工作流，改变你做事的方式。

L2 — Remix

沉淀定制化能力：Skill / Command / Tool。当你用得足够多，踩过足够多的坑，自然会开始把经验固化。不是为了炫技，是因为你不想重复踩坑。这一层的核心是 从使用者变成创造者 —— 你开始为 Agent 生态贡献能力。

L3 — Agent Loop

构建自己的编排层。不满足于用别人的 Agent，开始自己编排 Agent 的行为。从 prompt engineering 到 agent engineering，从调用工具到设计工具被调用的方式。

三条赛道不是阶梯 —— 它们是并行的，相辅相成的。你可以同时在三条赛道上跑。用得更好的经验会反哺你的 Remix，Remix 的沉淀会让你更清楚该怎么 Build Agent Loop。

验证漏斗：如何验证你的认知？

这是今年我想重点强调的：你在哪一层，不是你自己说了算。

自我满足 —— 自己觉得好。这对应去年 L3 那个 60% happy path 的愉悦状态。Demo 跑通了，自己觉得很牛。但这是最危险的状态，因为你不知道你不知道什么。

产品化 —— 找到用户。有人真的在用你做的东西。不管是你的 Agent workflow，你的 Skill，还是你的 Agent Loop —— 它经受住了真实用户、真实场景的考验。这对应去年的 L4。

商品化 —— 找到客户。不只是有人用，有人愿意为此付费。你创造的价值可以被定价。这对应去年的 L5。

能力 × 验证矩阵

把赛道和漏斗交叉，就得到了一个 3×3 的矩阵：

能力 × 验证矩阵

	用得更好	Remix	Agent Loop
自我满足	熟练使用各种 Agent 工具，能快速出 demo	攒了一些 Skill / Prompt，自己用着顺手	搭了个 Agent Loop 跑着玩，POC 级别
产品化	效率提升可量化，团队 adoption	能力被团队/社区复用，被别人 fork 和迭代	编排层在生产环境运行，有真实用户
商品化	创造可计价的商业价值	能力本身成为可售卖的产品	编排层本身就是产品/平台

这个矩阵的两根轴，对应两个不同的问题：

横轴（能力维度）：你在怎么用 Agent？从「使用」到「创造」。
纵轴（验证深度）：你的认知经过验证了吗？从「自嗨」到「市场买单」。

大部分人 —— 包括一年前的我们 —— 集中在矩阵的左上角：用得不错，自己也挺满足的。

真正的进化，是向右下角移动。举两个例子：

你天天用 Claude Code 写代码（用得更好 × 自我满足），某天你把踩过的坑固化成一个 Skill 分享给团队（→ Remix × 产品化）。从「自己爽」到「别人也在用」，你的认知被验证了。
你搭了一个 Agent workflow 帮自己做 code review（Agent Loop × 自我满足），然后让整个团队用起来，跑在 CI 里（→ Agent Loop × 产品化）。这一步的代价是：你得处理所有 edge case，而不只是自己那几个 repo。

所以呢？

回到去年的那个核心焦虑：「你不知道你不知道什么」。

一年后我想补充的是：认知的差距，不只体现在你知道多少，更体现在 你的认知被验证了多少。去年我认真学习了 Lovable 的 prompts，一个看似宽泛、大而全的 prompts，实际上里面很多细节，真的踩过坑的人才能 resonate。那种「你不知道你不知道什么」的恐惧感，源于你的认知停留在了自我满足层。

Societas 教会我的是：跨过鸿沟一次不够。 Agent 时代的进化是持续的。模型在升级，工具在演化，能力边界在不断被拓展。你不能只跨一次沟，你需要一套持续进化的方法论。

三条赛道 + 验证漏斗，就是我目前的答案。

用得更好，Remix 出自己的能力，Build 自己的 Agent Loop。然后不断用产品化和商品化来检验：你的认知到底值不值钱。

这不是一个终点，是一个持续的循环。

回顾：认知阶梯

L3 的陷阱

一年过去了

新框架：赛道 × 漏斗

三条赛道：你在怎么进化？

验证漏斗：如何验证你的认知？

能力 × 验证矩阵

所以呢？

分享这篇文章

相关文章

📖 相关书籍章节

📬 订阅更新

留言

Agent 时代的持续进化

回顾：认知阶梯

L3 的陷阱

一年过去了

新框架：赛道 × 漏斗

三条赛道：你在怎么进化？

验证漏斗：如何验证你的认知？

能力 × 验证 矩阵

所以呢？

分享这篇文章

相关文章

📖 相关书籍章节

📬 订阅更新

留言

能力 × 验证矩阵