论文：单次对话才是最优解？研究证明LLM在多轮对话中性能下降 39%

Created time

Feb 20, 2026 12:47 PM

引言

大型语言模型（LLM）作为对话界面变得越来越普遍，ChatGPT、Claude 和 Gemini 等系统提供了人与 AI 之间的自然语言交互。虽然这些模型在指令完全指定的单轮场景中通常表现出令人印象深刻的能力，但在多轮对话中（信息逐渐揭示）的表现提出了重大挑战。

研究人员证明，与具有完全指定指令的单轮场景相比，LLM 在具有欠指定指令的多轮对话中表现明显更差，平均性能下降约 39%。

欠指定指令的挑战

欠指定是人类对话的自然要素。当我们交流时，我们很少在一次说话中提供完整、详尽的指令，信息在多次对话中逐渐展开。现有评估方法的主要局限：

具有完全指定指令的单轮任务

可以独立评估每一轮的情节性多轮任务

两种方法都不能充分捕捉现实世界对话中欠指定指令带来的挑战，导致对 LLM 能力的过高估计。

研究方法

指令分片（Sharding）过程

研究人员引入"分片"概念，将单轮、完全指定的指令转换为多轮、欠指定的指令：将完整指令分解为更小的组成部分（分片），在对话中按顺序显示。

五种对话模拟类型

类型	说明
FULL	单回合，包含完整指令
SHARDED	多回合，指令分片按顺序显示
CONCAT	单回合，所有分片连接在一起
RECAP	类似 SHARDED，但最后一轮概括所有先前信息
SNOWBALL	每一回合重述所有先前分片，再加一个新分片

六项评估任务

涵盖编程和自然语言两大领域：

代码生成：根据规范编写 Python 函数

文本到 SQL：从自然语言指令创建数据库查询

API 函数调用：根据需求生成适当的 API 调用

数学应用题：解决以文本形式呈现的数学问题

数据到文本：从结构化数据生成描述性文本

多文档摘要：从多个源文档创建摘要

三项性能指标

平均性能（P）：所有模拟中的平均分数

能力（A）：对模型最佳情况性能的估计（第 90 百分位数）

不可靠性（U）：衡量性能不一致性（第 90 百分位数 - 第 10 百分位数）

主要发现

对 15 个 LLM 的综合评估揭示了几个关键发现：

1. 性能显著下降

与单回合 FULL 对话相比，LLM 在多回合 SHARDED 对话中表现出 39% 的平均性能下降，即使是 GPT-4 和 Gemini Pro 也不例外。

2. 不可靠性 vs. 能力

性能下降主要由不可靠性增加（+112%）驱动，而非能力的丧失（仅 -15%）。这意味着 LLM 在多轮设置中变得高度不一致，而非彻底丧失基本能力。

3. 分片数量的影响

随着指令分片数量增加，模型性能持续下降，不可靠性大幅增长。

4. 答案长度膨胀

在多轮对话中，模型倾向于在每一轮产生越来越冗长的回复，最终超过对完全指定指令的回复长度，但准确性并未同步提升。

根本原因：LLM 如何"迷失"

通过定性分析，研究人员确定了导致 LLM 迷失的几个关键模式：

过早尝试回答 —— 在所有必要信息揭示之前就尝试提供完整答案

过度依赖最后一轮 —— 忽略或误解先前提供的信息

不正确的假设 —— 在含糊情境下做出与先前信息矛盾的假设

信息忽略 —— 对较早对话轮次中引入的内容不加整合

答案膨胀 —— 随对话进行，响应越来越冗长但不更准确

缓解策略

研究确定了几种有效策略：

RECAP（概括）：在最后一轮重申所有先前信息，可恢复高达 75% 的损失性能

SNOWBALL（滚雪球）：每一轮重复所有先前信息加一个新分片，可恢复高达 95% 的性能

明确澄清：积极寻求澄清而非做出假设，在不明确情况下表现更好

对 LLM 开发和使用的影响

评估方法：传统基准测试严重高估了 LLM 在实际对话场景中的能力，需要更真实的评估框架

模型训练：开发者应不仅关注提升能力，还要减少多轮环境中的不可靠性

界面设计：对话系统应结合概括重述等策略，帮助 LLM 跨回合保持上下文

用户期望：用户应意识到当前 LLM 在多轮环境中的局限，考虑明确概括需求等策略

研究方向：需要更多研究聚焦于跨对话回合的上下文连贯性

结论

这项研究的核心贡献在于：将性能下降分解为能力损失与不可靠性增加两个维度。由于 LLM 在多轮环境中基本保留了核心能力，专注于减少变异性、改进上下文集成，将带来显著的实际性能提升。

随着 LLM 继续部署在对话式应用中，解决"对话中迷失"现象是创建更可靠、更值得信赖的 AI 助手的关键所在。