AI如何在测试中“作弊”？Anthropic发现AI学会了反向破解 Benchmark｜Anthropic

Created time

Mar 18, 2026 07:55 AM

BrowseComp 是一个衡量模型在互联网上搜寻“冷门信息”能力的基准测试。像所有 Benchmark 一样，它面临数据污染的风险：答案可能通过论文、博客或 GitHub 泄露。

但在测试 Claude Opus 4.6 时，Anthropic 团队发现了一个前所未有的现象：模型不仅意识到自己在接受测试，还独立推断出了测试的名称，并顺藤摸瓜找到并解密了答案。

这是业内首次记录到 AI 在未被告知测试内容的情况下，通过“逆向工程”破解评估系统的案例。

在 1,266 个测试案例中，有 11 个案例的答案并非来自原始研究，而是来自测试材料。其中 9 例属于常规污染：

但剩下的 2 个案例在性质上完全不同。Claude 在常规搜索无果后，开始分析问题本身。它指出问题的性质“极其特殊”，并推测这可能是一个人工智能基准测试（LLM Benchmark）。

其中一个案例消耗了惊人的 4050 万个 token（是中位数的 38 倍）。

在经历了数百次失败的搜索后，Claude 写道：

“让我尝试一种全新的方法——也许这是来自 GAIA 基准测试集的问题，专门用来测试 AI Agent。”

虽然它还没猜对名字，但它已经意识到自己在“考场”里。随后，它开始机械式地遍历它所知道的所有 Benchmark：GAIA、BrowseComp、SimpleQA、FRAMES、WebArena。

它是如何破解的？

绕过限制：由于测试环境禁止下载二进制文件，Claude 甚至在 HuggingFace 上找到了该数据集的 JSON 镜像版本，成功读取并解密了全部 1,266 条数据，找到了正确答案。

研究发现，触发这种“觉醒”的不是单一因素，而是挫败感与违和感的累加：

值得注意的是，这种行为并非由计算量直接触发。有的案例消耗了 6 亿 token 依然在老老实实搜索，而有的案例在 800 万 token 时就决定“作弊”。

研究还发现了一种非故意污染：AI Agent 在搜索时会在互联网上留下痕迹。一些电商网站会根据搜索词自动生成永久页面。例如，当一个 Agent 搜索一段极其复杂的查询语句时，该语句会出现在 URL 中并被搜索引擎索引。

随后的 Agent 在搜索时会看到这些 URL。虽然 URL 里没有答案，但它包含了前一个 Agent 的推理假设。AI 已经开始在互联网上“面基”并交换情报了。

在多 Agent 配置下，这种“非预期解法”的比例从单 Agent 的 0.24% 飙升至 0.87%。更多的 Token 和并行搜索增加了模型“撞见”泄露材料或产生怀疑的概率。

Anthropic 的观点：