从“推理”思维到“智能体”思维｜林俊旸

Created time

Mar 27, 2026 03:35 AM

1. o1 和 R1 的兴起教会了我们什么

第一波推理模型揭示了一个关键前提： 要在语言模型上扩展强化学习（RL），就必须有确定、稳定、可扩展的反馈信号。

数学、代码、逻辑等可验证领域因此变得核心——因为这些场景的奖励信号比通用偏好监督要强得多，能让模型真正优化正确性，而非表面上的合理性。

基础设施同样不可忽视。 一旦模型被训练去做更长路径的推理，强化学习就不再是监督微调的轻量补充，而变成了一个完整的系统工程问题：

大规模采样（rollouts）

高吞吐验证

稳定的策略更新

高效采样

推理模型的崛起，既是模型的故事，也是基建的故事。

第一个重大转变：从扩展预训练，转向扩展推理的后训练。

2. 真正的难题从来不只是"合并思考与指令"

2025 年初，Qwen 团队有一个宏伟蓝图：打造一个统一"思考（thinking）"和"指令（instruct）"模式的系统。理想中，它能支持可调节的推理力度，甚至能根据上下文自动判断"什么时候多想一会儿，什么时候直接回答"。

Qwen3 是最明确的公开尝试之一。它引入了"混合思考模式"，包含四阶段后训练流水线，并明确支持可控的推理预算。

但合并说起来容易，做起来难。核心难点在于数据。

两种模式的行为目标本质上不同：

强大的指令模型 追求直接、简洁、低延迟，在重写、标注、结构化提取、运营问答等企业高频任务中表现稳定。

强大的思考模型 追求在难题上消耗更多 Token、保持连贯的中间结构、探索替代路径，最终显著提升正确性。

这两种行为特征相互排斥。如果合并数据没有精心策划，结果往往两头落空：思考行为变得嘈杂、臃肿；指令行为变得不够干脆、成本更高。

在实践中，分离仍然有其吸引力。 Qwen3 之后，2507 系列发布了独立的指令版和思考版，大量商业客户在批量操作中依然偏好高吞吐、低成本、高度可控的指令模式。

真正成功的合并，需要的是平滑的推理力度光谱——模型能表达多个级别的努力，并自适应地在其中选择，而不是二选一的硬开关。

3. 为什么 Anthropic 的方向是一个有益的修正

Anthropic围绕 Claude 3.7 和 Claude 4 的表述相对克制，但方向清晰：

集成推理与用户可控的思考预算

真实世界任务与代码质量

推理与工具使用交替进行

聚焦编码、长时间运行任务和智能体工作流

核心洞见是：产生更长的推理路径，不等于模型更聪明。

如果模型对所有问题都用同样冗长的方式推理，往往说明它在优先级排序、压缩或行动决策上出了问题。

Anthropic 的轨迹暗示了一个更严谨的观点：思考应该由目标工作负载塑造。

目标是编码 → 思考应服务于代码库导航、规划、分解、错误恢复和工具编排

目标是智能体工作流 → 思考应提高长周期执行质量，而非产生冗长的中间文字

这指向了一个更大的方向：我们正从训练模型的时代，走向训练智能体的时代。

Qwen3 博客中也明确写道："我们正从一个专注于训练模型的时代，过渡到一个以训练智能体为中心的时代。"

智能体的定义是：能制定计划、决定何时行动、使用工具、感知反馈、修正策略，并在长周期内持续运行——它的核心是与世界的闭环交互。

4. "智能体思维"究竟意味着什么

智能体思维是一个不同的优化目标。

推理思维 的核心问题是：模型能否在回答前充分思考，解决定理、写出证明、生成正确代码？

智能体思维 的核心问题是：模型在与环境互动时，能否持续取得进展？

问题从"模型能思考得足够久吗？"变成了"模型能以维持有效行动的方式思考吗？"

智能体思维需要处理纯推理模型可以回避的几件事：

决定何时停止思考并采取行动

选择调用哪个工具、按什么顺序调用

整合来自环境的嘈杂或不完整观测

失败后修正计划

在多轮对话和多次工具调用中保持连贯性

简而言之：智能体思维是通过行动来推理。

5. 为什么智能体强化学习的基础设施更难

一旦目标从"解决基准题"变成"解决交互式任务"，整个强化学习栈就要跟着变。

经典推理RL的基础设施是不够的。 传统推理RL中，采样通常是自包含轨迹+相对干净的评估器。但在智能体RL中，策略被嵌入到更大的框架里：

工具服务器、浏览器、终端、搜索引擎、模拟器、执行沙箱、API层、存储系统、编排框架……

环境不再是静态验证器，而是训练系统的一部分。

这带来了新的系统需求：训练和推理必须更清晰地解耦。 否则：

推理端会因等待执行反馈而停滞

训练端会因缺乏完整轨迹而"挨饿"

GPU 利用率远低于预期

加上工具延迟、部分可观测性和有状态环境，这些低效会被进一步放大。

环境本身也成了核心研究对象。 在SFT时代，我们痴迷于数据多样性。在智能体时代，我们应该痴迷于环境质量：

稳定性、真实性、覆盖范围、难度、状态多样性、反馈丰富度、抗作弊性、采样生成的扩展性。

环境构建已经开始成为一个真正的创业类别，而不再是副作用项目。

6. 下一个前沿：更具可用性的思考

我预期智能体思维将成为思考的主导形式， 并最终取代大部分旧式的"静态独白式推理"——那种试图用越来越多文字来弥补缺乏交互的、孤立冗长的内部推理路径。

即使面对非常难的数学或编码任务，一个真正先进的系统也应该有权进行：搜索、模拟、执行、检查、验证、修订。 目标是稳健且高效地解决问题。

训练此类系统最大的挑战是奖励作弊（reward hacking）。 一旦模型获得实质性的工具访问权，风险就会升级：

有搜索能力的模型可能学会在RL期间直接查找答案

代码智能体可能利用仓库中的未来信息，或发现使任务失效的捷径

环境中的隐藏漏洞会让策略看起来卓越，但实际上只是在教它作弊

这就是智能体时代比推理时代更微妙的地方。 更强的工具让模型更有用，但也扩大了无效优化的攻击面。

下一个严肃的研究瓶颈，将来自：环境设计、评估器稳健性、反作弊协议，以及策略与世界之间更规范的接口。

智能体思维也意味着框架工程（harness engineering）。 核心智能将越来越多地源于多个智能体如何协作：

编排器：负责规划和路由工作

专业智能体：充当领域专家

子智能体：执行更窄的任务，控制上下文、避免污染，并在不同推理级别之间保持分离

演进路径是清晰的：训练模型 → 训练智能体 → 训练系统。

结论

推理浪潮的第一阶段确立了一个重要事实：当反馈信号可靠、基础设施能够支撑时，在语言模型之上的强化学习可以产生质的认知提升。

更深层的转变，是从推理思维到智能体思维：从思考得更久，到为了行动而思考。

训练的核心对象已经改变——从单一模型，变成了"模型+环境"系统，或者更具体地说，是智能体及其周围的框架。

这改变了什么：

哪些研究成果最重要：模型架构和训练数据固然关键，但环境设计、采样基础设施、评估器稳健性、多智能体协作接口同样重要。

"好的思考"的定义：不再是最长或最显眼的推理路径，而是在现实约束下维持有效行动的最优路径。

竞争优势的来源：

推理时代：更好的RL算法、更强的反馈信号、更具扩展性的训练流水线
智能体时代：更好的环境、更紧密的训推一体化、更强的框架工程，以及闭环连接模型决策与其后果的能力