强化学习之于 AI Agent，是灵魂、还是包袱？

自主决策能力是 Agent 受到重视，并被称为 AI 时代“新基建”原因。从这个角度看，Workflow 似乎做不出真正的通用 Agent。

而要谈真正具备决策能力和自我意识的 Agent，其实要从 AlphaGo 的问世说起。这是 AI 首次展示出非模板化、非规则驱动的智能行为。而 AlphaGo 也靠着深度神经网络与 RL，进行自我对弈与自我优化，最终击败人类顶级棋手，敲响了 Agent 时代的第一声锣。

从某种程度上说，Devin 可以算是通用 Agent 的滥觞。它首次把 AI 的编码能力、任务执行与反馈机制整合成一个完整的闭环，为后续产品提供了清晰的范例。

后来，Manus 延续了 Devin 的工作流思路，并提出 “More Intelligence” 的理念，不再满足于简单地串联工具，而是试图通过任务拆解、自我反思、模型调度等方式，让 Agent 具备更强的理解力和适应能力。而 Genspark 则走了一条更加模块化的路线，把每个任务步骤都变成一个可组合的部分，让开发者可以像拼乐高一样，快速搭建出属于自己的 Agent 系统。

但在当前主流关于“如何构建 Agent”的技术路径中，有两个被广泛认可的共识：一是拥有基础模型是构建 Agent 的起点，二是 RL 是赋予 Agent 连贯行为和目标感的“灵魂”。它决定了 Agent 如何理解环境反馈、进行长期规划，并作为连接 Perception 与行动 Action 的关键桥梁。

反观 Manus，由于缺乏底层模型能力和算法能力的支撑，它的系统结构相对开放，十分容易被模仿，甚至有团队在三天内就实现了复制，也因此被一些批评者视为“套壳”。不过从 AI 科技评论的角度看，这种批评也有失公允，毕竟 Manus 在产品设计和任务编排上依然有不少可圈可点的创新。

但“Agent 不能仅靠 Workflow 搭建”的看法，已经逐渐成为业内的共识。正是在这样的主流认知下，那些始终坚持深耕强化学习的团队，反而在新一轮技术演进中走到了更前沿的位置。

没有 RL 的 Agent，只是在演戏

Pokee AI 创始人、前 meta AI应用强化学习团队负责人朱哲清，就是一位对 RL 始终坚定信仰的“长期主义者”。

朱哲清曾向 AI 科技评论表示，RL 的核心优势在于目标驱动，它不是简单地响应输入，而是围绕一个清晰目标，进行策略规划和任务执行。而一旦缺少了 RL 的参与，Agent 就容易陷入“走一步看一步”的模式，缺乏内在驱动力，最终难以真正胜任复杂任务的完成。

他认为真正的 Agent 的核心在于其执行能力与影响力。如果一个系统只是单纯地生成内容或文件，那它更像是一个普通的工具，而非真正的 Agent。而当它能够对环境产生不可逆的影响时，它才具备了真正的执行性。总的来说，只有与环境发生深度交互，且产生的影响不可逆，才能称之为真正的 Agent。

他表示带有 Workflow 的产品，实际上是发展的初期形态。虽然它有明确的目标和流程，但仍需要人为干预，这样的系统仍处于早期阶段。真正的 Agent 不仅仅是按照预设的工具来操作，而是能够根据给定目标，自主选择和使用工具完成任务。

在他的认知中，Agent 的发展可以分为多个阶段。早期的例子，比如 Zapier 的工作流系统，更多是模拟人的决策行为，但并非真正智能的 AI Agent。之后又有了像 LangChain 这种类拖拽流的可组合型的任务执行模式，逐步向系统化过渡。到了现在，用 Claude 去做 MCP 的时候虽然工具的调用和规划能力都比较有限，但已经开始向更高水平的 Agent 演进。

而下一阶段的 Agent，将不再需要用户或开发者了解具体的工具或技术细节。用户只需简单提出任务要求，Agent 就能够根据目标自动选择工具，并规划解决路径。此时，整个过程的自主性与智能性将达到前所未有的水平，Agent 也将真正实现从工具到智能体的转变。

他坦言，RL 算法确实存在诸多挑战。比如线下训练时，使用的数据集与真实世界往往存在巨大差异，导致模型一旦从线下迁移到线上，就可能“水土不服”，再比如操作动作空间过大时，RL 系统很难稳定泛化，效率与稳定性之间的平衡始终是个难题。

但即便如此，朱哲清仍然坚持自己的判断：无论是 o1 还是 Rule-based reward model等模型范式的出现，RL 始终是站在技术舞台上的“隐形主角”。虽然它未必是 AGI 的唯一通路，但在迈向真正 “Superhuman Intelligence” 的过程中，RL 是一个无法绕开的技术节点。

在他看来，相比那些过于模糊、甚至略显理想化的 AGI 概念，能够超越人类在某些任务上的智能体，才是一个更实际、可度量的目标。RL，就是驱动这一目标落地的关键引擎。

没有 RL 的 Agent，也能往前走

然而，凡事都有两面。有人坚信 RL 是 Agent 的核心驱动力，也有人对这个观点提出质疑。

香港科技大学（广州）博士生，DeepWisdom 研究员张佳钇就属于对 RL 持保留态度的那一派。他追求跨环境的智能体，在与 AI 科技评论对话时表示： DeepWisdom研究员张佳钇认为，现有RL技术虽能在特定环境中提升Agent能力，但这本质上是“任务特化”而非真正的智能泛化。在实现跨环境数据的有效统一表征之前，RL面临的跨环境学习困境难以突破。

他认为利用 RL 对语言模型进行环境内优化本身没有问题，但问题在于，目前很多研究使用的仍是能力较弱的基础模型（base model），即便训练到“最优”，也只是对单一环境的适配，缺乏跨环境的泛化能力。在他看来，“使用 RL 训出一个适应某个环境的 Agent 已经很近，但距离训出通用跨环境的 Agent 还有很长的一段路要走。”

同时他也并不完全认同“没有 RL 就没有 Agent”这一观点。他表示业界对 RL 的“过度崇拜”掩盖了一个关键事实：OpenAI Deep Research 的成功更多依赖于其强大的基础模型 o3 早期版本提供的先验知识，而非只有 RL 本身。

虽然近期的学术研究表明RL确实能提升较弱基础模型的能力，但提升幅度有限，这也正是学术界和初创公司面临的核心挑战——如何在缺乏顶级基础模型的情况下，通过建立持续有效的 RL 数据收集流程来缩小与巨头的差距。

不过，张佳钇也并不全盘否定 RL。他表示 RL 的局限性更多是技术阶段的产物，且目前尚未出现一个能够有效解决泛化问题的算法。因此，RL 的问题不完全是方法论本身，而是当前技术仍处于早期阶段。

除此之外，他还向 AI 科技评论表示，更期待能够看到一个跨环境泛化的模型（比如 UI-TARS-1.5） —— 在任何环境下都能执行不同任务，而不是针对某个环境进行“定制化适配”。在他看来，这样的模型可能在未来出现。一旦实现，“Agent 就只需要在模型上做个简单系统就可以了。”

在整体架构上，他也给出了他对 Agent 演化路径的划分 —— 他将 Agent 的发展过程分为六个阶段：

第一阶段：构成 Agent 系统的最底层节点，语言模型被调用来执行基本任务；

第二阶段：在底层调用节点基础上，构建出固定的 agentic workflow，每个节点的角色与职责预设明确；

第三阶段：底层组件演化为具有自身逻辑和动作空间的 autonomous agent；

第四阶段：多个 autonomous agents 通过主动交流机制构建系统，形成 Multi Autonomous Agent Systems（MAS）；

第五阶段：底层组件拥有与人类一致的环境空间，成为Foundation Agent，开始协助人类跨环境完成任务；

第六阶段：Foundation Agent 基于人类目标与其他 Agent 产生联系，演化出具备自主协作能力的Foundation Agents 网络。真正实现以人类目标为核心的多智能体社会，达到Agent与人类共生的范式。

而目前大多数 Agent 产品公司仍停留在第二到第三阶段之间，尚未迈过第四阶段的门槛，而“最大的瓶颈在于当前 Agent 仍严重依赖人类预设的 workflow 节点，缺乏真正的自主性。”

在张佳钇看来，当前大多数 Agent 产品仍停留在第二到第三阶段之间，尚未迈过第四阶段的门槛。突破当前瓶颈的关键在于使 Agent 摆脱人类预设经验的束缚，通过自主探索获取跨环境经验并学会与各类专业 Agent 协作。

但在 Follou 创始人谢扬来看，这个问题又有所不同。

他认为 Agent 和工作流自动化是可以组合起来的。在他眼中，Agent 应该是一些可以协助人类提升生产力的工具，而并非一个独立的个体。它的价值不在于模拟人类，而在于高效协助人类，把复杂的任务拆解、执行，并最终完成目标。

在谢扬看来，很多人过于执着于“Agent 是否像人”这个问题，而忽略了它真正的应用意义。他更关心的是，Agent 是否真的能在现实中帮人把一件事做完，无论是搜索信息、分析数据，还是调度工具，Agent 也不应该成为一个新的“入口”或者“平台”，而应该成为一种嵌入式能力，真正融入人类的工作流程之中，成为“能执行的思考”和“能学习的工具”。

在这个过程中，他并不否认“自主性”的重要性，尤其是在环境感知和情境理解上的价值。但在他看来，衡量一个 Agent 是否真正有生命力，更关键的标准在于它是否“可组合”“可调度”。只有当 Agent 能够被灵活地组织在不同的垂直任务中，支持模块化的能力组合，并与人类实现高效协同，它才真正具备长期应用的可能性。

基于这样的理念，Follou 也构建了一整套融合 Agent 与工作流的架构体系，他们将浏览器（Browser）、智能体（Agent）和工作流自动化（Workflow Automation）等核心组件融合在一起，浏览器负责访问和渲染 Web 内容，智能体负责基于 LLM 理解上下文和做出决策，而工作流自动化则执行具体任务，调用 API、插件或脚本。

在谢扬看来，这种结构并不是技术炫技，而是一种“实用主义”的选择。他更关心的是，Agent 是否真正能在现实中把一件事做完，而不是停留在看起来很聪明的幻觉里。

在 RL 信徒与质疑者的观点交锋中，我们能看到一个逐渐清晰的趋势：Agent 的演化已不再是单一范式的胜利，而是多种技术路线的协同博弈。归根到底，构建 Agent 从来不是拼哪一种技术最炫，而是拼能不能把每一块基础能力连接成一个真正可运行的系统。

从理解指令，到规划路径、感知反馈，再到调用外部工具完成任务，每一环都需要精密协作、形成稳定闭环。模型能力再强，如果没有目标规划和执行机制，也只能停留在“懂你在说什么，但却做不了任何事”的阶段，而即便策略再优秀，如果基础模型跟不上、感知不准确，也会陷入“会动但不聪明”的窘境。

所以，构建 Agent 不是“拼模型”或“赌范式”的零和游戏，而是一次工程能力、系统设计和认知理解力的多维较量。

RL 可以塑造目标感，模型提供理解力，外部接口延展执行力，三者缺一不可。而如何把这些能力组合在一起，真正打造成一个可泛化、可迁移甚至是可迭代的系统，才是 Agent 走向通用市场的重要一步。

一个新的未来

而现在每天被人们挂在嘴边的 Agent，其实最早在人工智能领域是一个非常宽泛的概念：只要一个系统具备感知和决策能力，它就可以被称为 Agent。

但随着 Copilot 类产品的兴起，Agent 的概念又被重新定义：是否需要人介入决策，成为划定 Agent 边界的关键标准。如果一个系统可以在没有人参与的前提下独立完成决策和执行，那它就属于真正意义上的 Agent。

在这个标准下，其实我们今天看到的大部分 AI 应用都可以被视为某种形式的 Agent。比如在编程领域，一个 AI 模型可以完成代码生成、编译、测试、修改的循环；在游戏中，AI 控制的角色可以自主应对环境变化，失败也不会造成真实世界的损失。这些任务虽然复杂，但由于风险较低、反馈明确，所以系统即使出错，问题也不大。

但如果朝着通用 Agent 的方向发展的话，那么最大的衡量标准，就不再是语言生成的能力或者执行速度，而是任务解决的成功率。从系统架构上来看，着往往取决于两种关键的设计：

如果是串行的 Agent 架构，即由一个上层 Agent 发出决策，再调度多个下层 Agent 执行子任务。如果是在这种模式下，调度层的指挥能力和下层的配合能力就直接决定了任务是否能够高效完成。

而如果是并行的 Agent 架构的话，则是需要多个智能体在同一时间共同协作完成任务，这就需要系统从头到尾都不能出错，因为就算每个环节的成功率都能够达到七八成，但最后的整体成功率也会指数级下降。

因此，雷峰网(公众号：雷峰网)认为，要构建真正强大、可落地的通用 Agent，必须确保系统的稳定性、容错机制和跨模块协同能力，否则就难以胜任复杂任务。这便是目前通用 Agent 面临的主要问题。

而通用 Agent 一旦能够落地，它将会让大家的边际成本显著下降，同时望成为继 PC 操作系统和手机系统之后的新一代人机交互入口。这一点类似于当年微软和英特尔组成的“Wintel 模式”，即操作系统带来人机交互，芯片提供计算能力，二者结合直接引爆整个生态。同理，今天的苹果也凭借自研的 iOS 和芯片称霸移动端，而安卓阵营与高通的配合也形成了另一套强大体系。

雷峰网认为，顺着这个思路去想，在通用 Agent 的未来中，很可能会诞生类似的生态闭环：AI 操作系统 + 模型原生芯片，进而催生出下一代 Wintel 模式。到时候，我们或许将看到专为 Agent 设计的模型级芯片，亦或者是 AIPC 的兴起，共同见证整个智能交互方式的范式跃迁。