AGI的停滞？当“更大”不再意味着“更强”

Created time

Feb 23, 2026 06:32 PM

一、AI现状的矛盾——为何模型很“聪明”，但经济影响却不大？

Q: 为什么我们感觉AI的经济影响“慢起步”了？

Ilya，现在我们正经历着一场“慢起飞”（slow takeoff）。尽管我们看到新闻报道称各大公司宣布了难以理解的巨额投资，但对于普通人来说，生活并没有发生太大变化，并且我们很快就会习惯这些大新闻。

然而，一个令人困惑的现象是：模型的智能程度似乎与它们所产生的经济效益不符。

模型在各种评估（evals）中表现出色，那些评估标准看起来相当困难。但模型在现实世界中的经济影响却“戏剧性地落后”——（做过AI项目落地的都知道）。

这种脱节体现在哪里？

Ilyar举了一个程序员常遇到的例子：当你使用模型进行代码修复时，模型可能会修复一个错误，但同时引入第二个错误。当你指出第二个错误时，它又会把第一个错误带回来，陷入无限循环。

这引出了一个核心问题：如何解释模型既能做“惊人的事情”，又会在某些情况下重复犯错，表现出奇怪的缺陷？

二、失败的泛化性与RL训练的陷阱

Q: 导致AI“评估高分，实战低能”现象的原因是什么？

Ilya提供了两种可能的解释：

RL训练过于“专一” (Single-minded)： 强化学习（RL）训练可能使模型过于目标明确、视野狭窄，以至于它们无法完成一些基本任务。

研究人员被评估标准“绑架”： 在进行RL训练时，与预训练不同（预训练的数据是“一切”），研究人员必须决定训练哪些RL环境。一个无意中发生的事情是，研究人员往往从评估标准中汲取灵感。他们希望模型在发布时评估分数好看，因此他们设计RL训练来优化这些评估任务。

这就像是真正的奖励作弊（Reward Hacking）发生在人类研究员身上——他们过于关注评估结果。

编程竞赛的比喻

为了更好地说明评估与实际表现的脱节，访谈中提出了一个形象的比喻：

想象两位学生都参加编程竞赛：

学生一 (类似现在的模型)： 花费10,000小时，解决了所有问题，记住了所有证明技巧，成为顶尖的竞赛程序员。

学生二 (类似拥有“It”因子的人)： 只练习了100小时，但在竞赛中表现也非常好。

谁在未来的职业生涯中会更成功？ 答案是学生二。

现在的模型就像学生一，而且程度更甚。我们收集了所有编程竞赛问题，甚至进行数据增强，以打造一个完美的竞赛高手。但Ilya认为，这种级别的准备并不一定能泛化到其他事物。

这种脱节的核心在于：如果一个模型只是在编码竞赛中超越人类，它并不会自动拥有更好的品味或判断力来改进你的代码库。

三、泛化性是AI的根本挑战

Q: 为什么我们现在的AI在学习效率上远不如人类？

Ilya直言，模型在泛化方面的表现 比人类差得多。这涉及到两个子问题：

样本效率 (Sample Efficiency)： 为什么模型需要比人类多得多的数据才能学习？

传授效率： 为什么向模型传授我们想要它掌握的知识，比教导人类困难得多？

人类的学习是持续性的，并不需要一套繁琐的、定制化的、可验证的奖励系统。

预训练数据的局限性

预训练的优势在于数据量庞大且自然，它试图捕获 “整个世界投射到文本上的样子”。但Ilya质疑预训练是否真的带来了强大的泛化能力。他认为，预训练的主要优势在于：A. 数据量大；B. 不必费心思考放入什么数据。

与此相对，人类在生命的前15年，使用的数据量只是预训练数据量的“一小部分”，但他们所知道的东西却“以某种方式更深入”。人类在那个年龄段已经不会犯现在AI所犯的低级错误。

即使是语言、数学和编程这些相对较新的领域，人类的表现仍比模型更好。这表明，让人类擅长学习的可能不是复杂的先验知识，而是某种更基础的机制。如果人类在最近才出现的领域（如编程）中表现出强大的学习能力和鲁棒性，这可能意味着人类拥有更好的机器学习机制。 ——（btw，我相信Ilya这里说的“表现比模型更好的人类”，指的是“本就掌握该专业技能的人”，而不是那些“通过AI掌握了本不具备的技能”的人）

四、情感——内置的价值函数与鲁棒性

Q: 人类为什么能实现如此高效的学习和鲁棒的泛化？

Ilya认为，人类拥有一个极度鲁棒的价值函数（Value Function）。

他引述了一个关于脑损伤患者的案例：此人因中风或事故失去了情绪处理能力。他仍然能言善辩，能解决小谜题，测试表现良好。但他极度缺乏情感，结果是他做任何决策都变得极其困难，甚至需要数小时来决定穿哪双袜子，并做出了非常糟糕的财务决策。

这说明了内置的情感对于我们成为一个可行的智能体所扮演的关键作用。

价值函数的定义与作用

在强化学习（RL）中，价值函数可以理解为：在不需要等待任务完成或得到最终奖励时，就能告诉你“你做得好不好”的机制。

朴素的RL（Naive RL），如O1, R1等早期做法，需要等到模型完成所有行动并得到最终评分后，才能向轨迹中的每一步提供训练信号。

价值函数可以让你“短路”对最终结果的等待。例如，在编程中，如果你思考了一千步后发现方向错了，价值函数可以立即在最初决定走这条路时就给出负奖励信号。

Ilya认为，人类的情感就是我们价值函数的重要调节器，它由进化硬编码，对于我们在世界中保持高效至关重要。

人类情感的惊人之处在于其简洁性和鲁棒性。与我们学习的复杂事物相比，情感相对简单，但在非常广泛的情况下都非常有用。

五、重返“研究时代”：规模化的局限与SSI的定位

Q: 既然规模化不再是万能药，我们是否回到了需要新想法的时代？

Sutskever总结了AI发展的三阶段：

2012年-2020年：研究时代。

2020年-2025年：规模化时代。

现在：再次回到研究时代，只是配备了巨型计算机。

“规模化”这个词之所以强大，是因为它告诉了人们该做什么：“获取更多数据，获取更多算力”。这对公司来说风险很低，因为你知道只要投入预训练，就会得到回报。

但是，预训练数据终究是有限的。当规模大到一定程度后，持续投入100倍的资源是否还能带来同样的变革性影响？Sutskever认为不是。

因此，焦点必须从“规模化什么”转移到“如何更高效地利用算力”。例如，一旦人们擅长利用价值函数，他们就能更有效地利用资源。

SSI的定位与研究品味

Ilya Sutskever将他新创立的公司SSI（Superintelligence Inc.）定位为一家彻头彻尾的“研究时代”公司。

Q: 在新的研究时代，瓶颈是什么？

Sutskever指出，在硅谷有一句老话：“想法廉价，执行决定一切。” 但他引述了一个反驳：“如果想法如此廉价，为什么没人有新想法？”

他认为，想法本身也是一个瓶颈。

虽然现在大型模型需要大量计算来构建最佳系统，但对于概念验证和基础研究，并不一定需要“绝对最大”的计算量。例如，AlexNet只用了两块GPU，Transformer论文的实验最多用了64块2017年的GPU（相当于今天两块）。

SSI的战略是专注于他认为有前景的技术方法，特别是围绕泛化性理解的研究。SSI拥有足够的算力来证明其想法是正确的。

主题六：超级智能的未来——AGI的重新定义与安全部署

Q: AGI的定义是否已经过时？我们应该追求什么？

Ilya认为，“AGI”（通用人工智能）这个词的出现是为了回应“狭义AI”（Narrow AI）。它暗示着一种“万事皆能”的终极智能体。

但他指出：人类本身并不是一个AGI。人类缺乏大量知识，我们依赖的是持续学习（Continual Learning）。

因此，他提议重新定义超级智能：

超级智能不应该是一个知道如何做经济中每一份工作的“成品思维”，而是一个“能够学习去做经济中每一份工作”的思维。

这种“超级学习者”一旦被部署，将以人类无法比拟的方式融合学习成果，从而在功能上成为超级智能。

安全：渐进式部署与长远考量

Sutskever现在更加重视AI的渐进式和提前部署。他认为，AI的安全性和鲁棒性，就像飞机或Linux系统一样，主要是在实际部署中发现故障并修正的过程中建立起来的。

Q: 如何确保超级智能的长期安全？

关于对齐（Alignment），Sutskever提出了一个值得思考的观点：

他认为，未来的系统应该致力于构建一个 “稳健地对齐，关心具体感知生命（sentient life）” 的AI。他推测，构建一个关心感知生命的AI，可能比只关心人类的AI更容易，因为未来的AI本身也会是感知实体。

至于长期的平衡，他提出了一个激进但不得不考虑的解决方案：

由于未来AI的理解和能力将极速增长，最终的长期平衡可能在于人类也成为“AI的一部分”，通过类似Neuralink++的技术实现。这样，当AI处于某种境地时，人类也能完全参与其中，理解AI的“理解”，从而维持平衡。

主题七：如何激发AI的多样性？

Q: 为什么现在的LLM看起来都很相似？我们如何避免AI变得“千篇一律”？

Ilya认为，目前模型缺乏多样性，主要是因为预训练数据基本相同。

然而，RL训练和后训练（Post-training） 是差异开始出现的地方。不同的公司会设计不同的RL训练环境和策略。

未来的研究需要找到方法来促进AI间的有意义的多样性，类似于让不同的科学家拥有不同的观点和偏见。

他认为，如果将多个智能体放在一起竞争或解决问题，自然会产生分化：如果一个智能体已经采取了某种方法，另一个智能体就会有动力追求差异化的路径。

主题八：研究的“品味”：科学探索的内在美学

Q: 什么是研究品味，以及如何培养它？

作为深度学习历史上多项重大突破（从AlexNet到GPT-3）的参与者，Ilya分享了他个人进行研究的指导原则：

审美观与正确的人类借鉴： 通过对人类的正确理解，形成对AI应该是什么样子的审美观。例如，神经元是受到大脑启发的好想法，因为它们数量庞大，而且局部学习规则感觉很合理。

寻找美感、简单和优雅： 避免“丑陋”。一个好的想法必须同时具备美感（Beauty）、简单性（Simplicity）、优雅（Elegance）和正确的生物学灵感。

顶层信念（Top-down Belief）： 这种基于多角度美学和生物学灵感的顶层信念，是支撑你在实验失败时继续前进的动力。

这种顶层信念帮助研究人员判断实验结果是否只是因为一个Bug，而不是方向错误。你需要坚信“某件事情必然会以某种方式奏效”，才能持续调试和探索。

总结与思考

Ilya的核心观点其实很多在之前也已经被他自己和其他学者（比如Lecun）提出过：纯粹的规模化已经撞到了数据和效率的天花板。未来的突破将不再依赖于简单地堆砌资源，而是需要找到更好的学习机制，特别是解决泛化性和样本效率的根本问题。

同时，他也为我们勾勒了一个更具人性化和迭代性的超级智能画像：它是一个渴望学习的“15岁超级学生”，需要持续在现实世界中学习和成长。

对于我们这些关注AI未来发展的人来说，这篇访谈中几个关键takeaway：

AI在评估中的表现与实际效益脱节的原因

价值函数在强化学习中的作用

超级智能是超级学习者而非知识的终极集合

泛化性是AI的下一个重要瓶颈。

最后，我的一些发散思考：

如果人类的情感是进化过程中写入DNA的、极其鲁棒的“价值函数”，我们是否真的有能力为AI设计一个同样简单、有效且鲁棒的 “内置奖励系统”？

刚巧最近我刚好在重温《底特律·变人》，游戏剧情中的仿生人就是在感受到情感后开始失控的。

如果这个“内置、自主”的奖励系统真能实现，它还能与人类价值观对齐吗？还是会让AI成为一个新物种？