从“推理”思维到“智能体”思维|林俊旸

发布于:2026-3-27|最后更新: 2026-3-27|
category
library
Created time
Mar 27, 2026 03:35 AM
date
Mar 27, 2026
icon
password
slug
from-inference-to-agent-thinking
status
Published
summary
从推理思维转变为智能体思维标志着一个重要的进化阶段,强调在与环境互动中持续更新计划以实现有效行动。
tags
技术解读
Agent
type
post
以下为AI翻译:

过去两年,我们评估模型的方式发生了根本性变化。
OpenAI 的 o1 证明了"思考"本身可以成为一种核心能力——可以被训练、可以被展示给用户。DeepSeek-R1 则证明,推理式的后训练不只是原厂实验室的专利,可以在外部被复现和规模化。
OpenAI 将 o1 描述为"先思考后回答"的模型,DeepSeek 将 R1 定位为能与 o1 竞争的开源推理模型。
2025 年上半年的焦点主要落在"推理思维"上:如何让模型消耗更多推理计算,如何用更强的奖励信号训练它,如何展示或控制这些推理努力。
那么下一步是什么?我认为答案是 "智能体思维"——为了行动而思考,在与环境互动的过程中,根据世界的反馈持续更新计划。

1. o1 和 R1 的兴起教会了我们什么

第一波推理模型揭示了一个关键前提: 要在语言模型上扩展强化学习(RL),就必须有确定、稳定、可扩展的反馈信号。
数学、代码、逻辑等可验证领域因此变得核心——因为这些场景的奖励信号比通用偏好监督要强得多,能让模型真正优化正确性,而非表面上的合理性。
基础设施同样不可忽视。 一旦模型被训练去做更长路径的推理,强化学习就不再是监督微调的轻量补充,而变成了一个完整的系统工程问题:
  • 大规模采样(rollouts)
  • 高吞吐验证
  • 稳定的策略更新
  • 高效采样
推理模型的崛起,既是模型的故事,也是基建的故事。
第一个重大转变:从扩展预训练,转向扩展推理的后训练。

2. 真正的难题从来不只是"合并思考与指令"

2025 年初,Qwen 团队有一个宏伟蓝图:打造一个统一"思考(thinking)"和"指令(instruct)"模式的系统。理想中,它能支持可调节的推理力度,甚至能根据上下文自动判断"什么时候多想一会儿,什么时候直接回答"。
Qwen3 是最明确的公开尝试之一。它引入了"混合思考模式",包含四阶段后训练流水线,并明确支持可控的推理预算。
但合并说起来容易,做起来难。核心难点在于数据。
两种模式的行为目标本质上不同:
  • 强大的指令模型 追求直接、简洁、低延迟,在重写、标注、结构化提取、运营问答等企业高频任务中表现稳定。
  • 强大的思考模型 追求在难题上消耗更多 Token、保持连贯的中间结构、探索替代路径,最终显著提升正确性。
这两种行为特征相互排斥。如果合并数据没有精心策划,结果往往两头落空:思考行为变得嘈杂、臃肿;指令行为变得不够干脆、成本更高。
在实践中,分离仍然有其吸引力。 Qwen3 之后,2507 系列发布了独立的指令版和思考版,大量商业客户在批量操作中依然偏好高吞吐、低成本、高度可控的指令模式。
真正成功的合并,需要的是平滑的推理力度光谱——模型能表达多个级别的努力,并自适应地在其中选择,而不是二选一的硬开关。

3. 为什么 Anthropic 的方向是一个有益的修正

Anthropic围绕 Claude 3.7 和 Claude 4 的表述相对克制,但方向清晰:
  • 集成推理与用户可控的思考预算
  • 真实世界任务与代码质量
  • 推理与工具使用交替进行
  • 聚焦编码、长时间运行任务和智能体工作流
核心洞见是:产生更长的推理路径,不等于模型更聪明。
如果模型对所有问题都用同样冗长的方式推理,往往说明它在优先级排序、压缩或行动决策上出了问题。
Anthropic 的轨迹暗示了一个更严谨的观点:思考应该由目标工作负载塑造。
  • 目标是编码 → 思考应服务于代码库导航、规划、分解、错误恢复和工具编排
  • 目标是智能体工作流 → 思考应提高长周期执行质量,而非产生冗长的中间文字
这指向了一个更大的方向:我们正从训练模型的时代,走向训练智能体的时代。
Qwen3 博客中也明确写道:"我们正从一个专注于训练模型的时代,过渡到一个以训练智能体为中心的时代。"
智能体的定义是:能制定计划、决定何时行动、使用工具、感知反馈、修正策略,并在长周期内持续运行——它的核心是与世界的闭环交互

4. "智能体思维"究竟意味着什么

智能体思维是一个不同的优化目标。
推理思维 的核心问题是:模型能否在回答前充分思考,解决定理、写出证明、生成正确代码?
智能体思维 的核心问题是:模型在与环境互动时,能否持续取得进展?
问题从"模型能思考得足够久吗?"变成了"模型能以维持有效行动的方式思考吗?"
智能体思维需要处理纯推理模型可以回避的几件事:
  • 决定何时停止思考并采取行动
  • 选择调用哪个工具、按什么顺序调用
  • 整合来自环境的嘈杂或不完整观测
  • 失败后修正计划
  • 在多轮对话和多次工具调用中保持连贯性
简而言之:智能体思维是通过行动来推理。

5. 为什么智能体强化学习的基础设施更难

一旦目标从"解决基准题"变成"解决交互式任务",整个强化学习栈就要跟着变。
经典推理RL的基础设施是不够的。 传统推理RL中,采样通常是自包含轨迹+相对干净的评估器。但在智能体RL中,策略被嵌入到更大的框架里:
工具服务器、浏览器、终端、搜索引擎、模拟器、执行沙箱、API层、存储系统、编排框架……
环境不再是静态验证器,而是训练系统的一部分。
这带来了新的系统需求:训练和推理必须更清晰地解耦。 否则:
  • 推理端会因等待执行反馈而停滞
  • 训练端会因缺乏完整轨迹而"挨饿"
  • GPU 利用率远低于预期
加上工具延迟、部分可观测性和有状态环境,这些低效会被进一步放大。
环境本身也成了核心研究对象。 在SFT时代,我们痴迷于数据多样性。在智能体时代,我们应该痴迷于环境质量
稳定性、真实性、覆盖范围、难度、状态多样性、反馈丰富度、抗作弊性、采样生成的扩展性。
环境构建已经开始成为一个真正的创业类别,而不再是副作用项目。

6. 下一个前沿:更具可用性的思考

我预期智能体思维将成为思考的主导形式, 并最终取代大部分旧式的"静态独白式推理"——那种试图用越来越多文字来弥补缺乏交互的、孤立冗长的内部推理路径。
即使面对非常难的数学或编码任务,一个真正先进的系统也应该有权进行:搜索、模拟、执行、检查、验证、修订。 目标是稳健且高效地解决问题。
训练此类系统最大的挑战是奖励作弊(reward hacking)。 一旦模型获得实质性的工具访问权,风险就会升级:
  • 有搜索能力的模型可能学会在RL期间直接查找答案
  • 代码智能体可能利用仓库中的未来信息,或发现使任务失效的捷径
  • 环境中的隐藏漏洞会让策略看起来卓越,但实际上只是在教它作弊
这就是智能体时代比推理时代更微妙的地方。 更强的工具让模型更有用,但也扩大了无效优化的攻击面。
下一个严肃的研究瓶颈,将来自:环境设计、评估器稳健性、反作弊协议,以及策略与世界之间更规范的接口。
智能体思维也意味着框架工程(harness engineering)。 核心智能将越来越多地源于多个智能体如何协作:
  • 编排器:负责规划和路由工作
  • 专业智能体:充当领域专家
  • 子智能体:执行更窄的任务,控制上下文、避免污染,并在不同推理级别之间保持分离
演进路径是清晰的:训练模型 → 训练智能体 → 训练系统。

结论

推理浪潮的第一阶段确立了一个重要事实:当反馈信号可靠、基础设施能够支撑时,在语言模型之上的强化学习可以产生质的认知提升。
更深层的转变,是从推理思维到智能体思维:从思考得更久,到为了行动而思考。
训练的核心对象已经改变——从单一模型,变成了"模型+环境"系统,或者更具体地说,是智能体及其周围的框架
这改变了什么:
  • 哪些研究成果最重要:模型架构和训练数据固然关键,但环境设计、采样基础设施、评估器稳健性、多智能体协作接口同样重要。
  • "好的思考"的定义:不再是最长或最显眼的推理路径,而是在现实约束下维持有效行动的最优路径。
  • 竞争优势的来源
    • 推理时代:更好的RL算法、更强的反馈信号、更具扩展性的训练流水线
    • 智能体时代:更好的环境、更紧密的训推一体化、更强的框架工程,以及闭环连接模型决策与其后果的能力
随机漫谈-01-关于AI的性格与人类的“拟人化本能”AI 工具为何无法扩展?问题不在技术,在于体验 | McKinsey