常见的Agent工作流模式以及使用建议｜Anthropic

Created time

Apr 6, 2026 04:22 PM

工作流与智能体如何协同运作

如果你有过管理团队的经验，理解工作流其实并不难。

想象一条制造业的流水线：每个工位上都有一名技术工人，负责对自己岗位的具体任务做出判断——但整体流程早已预先设计好，即便中间涉及动态决策（比如路由调整或重试）也不例外。

智能体工作流的运作逻辑与此完全相同。

工作流 vs. 自主智能体：有什么区别？

工作流并不取代智能体的自主性，而是规定自主性在何处、以何种方式发挥作用。

完全自主的智能体：自行决定使用哪些工具、以什么顺序执行任务、何时停止。

工作流约束下的智能体：整体流程有既定结构，关键检查点已明确设置，每个步骤内智能体的行为边界也已划定——但在边界内仍可动态响应。

工作流中的每个步骤依然可以充分发挥智能体的推理和工具调用能力，只是整体编排遵循预定路径。你得到的是：每一步拥有智能体的灵活性，整个任务拥有流程的可预期性。

三种核心工作流模式

在生产环境中，我们最常见到以下三种工作流模式。请把它们视为可组合的积木，而非僵硬的模板——随着需求演进，你通常会将它们嵌套或混合使用：

顺序工作流 — 按固定顺序依次执行任务

并行工作流 — 让多个智能体同时处理相互独立的任务

评估优化工作流 — 对需要反复打磨的输出进行迭代改进

每种工作流模式都针对特定问题，并在复杂度、成本和性能上有明确的权衡取舍。

模式	解决的问题	适用场景	代价	收益
顺序	任务存在依赖关系：步骤 B 需要步骤 A 的输出	多阶段流程、数据管道、起草-审核-润色循环	增加延迟（每步等待上一步完成）	让每个智能体专注单一任务，有助于提升准确性
并行	任务相互独立，但逐一串行处理太慢	多维度评估、代码审查、文档分析	成本更高（多路并发 API 调用）且需要聚合策略	更快完成任务，并实现团队间的关注点分离
评估优化	初稿质量达不到要求	技术文档、客户沟通、符合特定规范的代码生成	Token 消耗成倍增加，并引入迭代延迟	通过结构化反馈循环，持续改善输出质量

从最简单的模式出发。 默认选顺序工作流；当延迟成为瓶颈且任务相互独立时，再迁移到并行；只有当你能量化质量提升时，才引入评估优化循环。

顺序工作流（Sequential Workflows）

顺序工作流按预设顺序依次执行任务。

每个阶段的智能体处理输入、做出决策、按需调用工具，然后将结果传递给下一阶段。最终形成一条清晰的操作链：输出在各环节之间线性流动。

何时使用： 顺序工作流在任务天然分解为具有明确依赖关系的独立阶段时最为出色。你用一定的延迟换取更高的准确性——每个智能体只专注于一个子任务，而不是试图同时处理所有事情。

适合以下场景：

多阶段流程，每一步依赖上一步的输出

数据转换管道，每个阶段都增加特定价值

因内在依赖关系无法并行化的任务

迭代改进循环，如「起草 → 审核 → 润色」

何时回避： 如果单个智能体就能有效完成整个任务，或者各智能体需要协作而非顺序交接，就不要强用顺序工作流。把一个本不适合顺序拆分的任务硬拆进去，只会徒增复杂度。

典型案例：

生成营销文案，再翻译成多种语言

从文档中提取数据、按 Schema 校验、然后写入数据库

内容审核管道：提取内容 → 分类 → 应用审核规则 → 按结果路由

💡 实用建议： 先把整个流程作为单个智能体的提示词来尝试——各步骤只是 Prompt 的不同部分。如果效果够好，问题已经解决，无需引入额外复杂性。只有当单个智能体无法可靠处理时，再拆分为多步骤工作流。

并行工作流（Parallel Workflows）

并行工作流将独立任务分发给多个智能体同时执行。不再等一个智能体完成后再启动下一个，而是多个智能体并发运行，最后汇总各自结果。

当任务之间没有依赖关系时，这种模式可以显著提升速度。

这与分布式系统中的 fan-out/fan-in（扇出/扇入） 模式如出一辙：将相同或相关的工作发送给多个智能体，各自独立处理，最终聚合或综合它们的输出。智能体之间不存在工作交接——它们各自独立运行，共同为最终任务贡献结果。

何时使用： 当工作可以拆分为相互独立、能从并发处理中获益的子任务时，并行化才有意义。它也支持关注点分离——不同工程师可以独立拥有和优化各自的智能体，互不干扰。对于复杂任务，用独立 AI 调用处理每个维度，往往比在一次调用中兼顾所有维度效果更好。

适合以下场景：

分块处理：不同智能体负责不同维度（如一个处理查询，另一个检查安全问题）

多维评估：每个智能体评估不同的质量指标

投票机制：多个智能体分析同一内容，汇总各自判断

何时回避：

各智能体需要累积上下文或在彼此工作基础上继续推进时

API 配额等资源限制使并发处理效率低下时

缺乏处理不同智能体矛盾结果的清晰策略时

结果聚合过于复杂以至于损害输出质量时

典型案例：

自动化评估：每个智能体检查不同质量指标

代码审查：多个智能体分别审查不同类别的漏洞

文档分析：并行提取关键主题、情感分析和事实核查，再综合洞察

💡 实用建议： 在实现并行智能体之前，先设计好聚合策略。你会采用多数投票？平均置信度分数？还是优先信任最专业的智能体？没有明确的结果综合方案，并行运行只会产生一堆相互矛盾、无从裁决的输出。

评估优化工作流（Evaluator-Optimizer Workflows）

评估优化工作流让两个智能体形成迭代循环：一个生成内容，另一个按特定标准评估，生成者根据反馈进行修改——如此循环，直到输出达到质量门槛或触达最大迭代次数。

核心洞察在于：生成与评估是两种截然不同的认知任务。将两者分离，让每个智能体专注于自己的角色——生成者专注于产出内容，评估者专注于一致地应用质量标准。

何时使用： 当你拥有 AI 评估者能够一致应用的明确且可量化的质量标准，且首次生成与最终目标之间的质量差距大到足以证明额外 Token 和延迟值得投入时，这种模式就能发挥作用。

适合以下场景：

有特定要求的代码生成（安全标准、性能基准、风格规范）

对语气和措辞精准度要求高的专业沟通

任何初稿质量持续无法满足要求的场景

何时回避：

初次尝试的质量就已满足需求——无需浪费 Token 做多余的迭代

需要即时响应的实时应用

简单的例行任务，如基础分类

评估标准过于主观，AI 评估者无法一致应用

存在确定性工具（如代码风格的 Linter）时，优先使用这些工具

资源约束超过质量改善带来的收益时

典型案例：

API 文档生成：生成者撰写文档，评估者检查完整性、清晰度和与代码库的一致性

客户沟通：生成者起草邮件，评估者评估语气和合规性

SQL 查询生成：生成者编写查询，评估者检查效率和安全问题

💡 实用建议： 在开始迭代之前，先设定清晰的停止条件——包括最大迭代次数和具体的质量阈值。没有这些护栏，你可能陷入代价高昂的无限循环：评估者不断发现细枝末节的问题，生成者不断微调，但质量早已在某个时间点触达天花板。知道什么时候「够好就是好」，是这个模式成功的关键。

如何选择合适的工作流模式

选择哪种工作流，取决于你的任务结构、质量要求和资源约束。

在选择任何模式之前，先用单个智能体调用来尝试。 如果效果达标，你就可以收手了。如果不行，找出它在哪里失败——那会告诉你该用哪种模式。

几个辅助决策的问题：

单个智能体能有效完成这个任务吗？→ 能的话，不要用工作流。

任务有明确的顺序依赖关系吗？→ 用顺序工作流。

子任务可以独立并发处理，且更快完成对你有价值吗？→ 考虑并行工作流。

迭代改进能显著提升质量吗？→ 考虑评估优化模式。

选定模式后，还需要考虑：

故障处理：为每个步骤定义回退行为和重试逻辑。

延迟与成本约束：这决定了你能并发运行多少个智能体、能承受多少轮迭代。

量化改进效果：先建立单智能体的基线，这样你才能判断工作流是否真的带来了提升。

模式组合：1 + 1 > 2

这三种模式并不互斥，可以按需嵌套：

评估优化工作流 内部可以使用并行评估，由多个评估者同时评估不同质量维度。

顺序工作流 中某些阶段可以插入并行处理，在进入下一步之前并发完成多个独立操作。

关键原则：让模式的复杂度与实际需求匹配。不要因为「可以并行」就引入并行处理——只有并发执行能带来明确收益时才这样做。不要因为觉得应该加入评估优化循环就加——除非你能量化它对输出质量的改善。

让工作流随需求演进

我们的核心建议只有一句话：从能解决问题的最简模式开始。

顺序工作流能搞定，就不要引入并行化。初次生成的质量已经足够，就跳过评估优化循环。

这三种模式提供了清晰的升级路径：顺序工作流可以在瓶颈阶段引入并行处理；随着质量标准提高，智能体方案可以加入评估环节。由于这些模式本身是模块化的，升级时不需要推翻重来。

如果你想了解具体实现指南、详细示例以及包含混合方案的高级模式，可以参考我们的完整白皮书：《构建高效 AI 智能体：架构模式与实施框架》。