Andrej Karpathy的2025年大语言模型（LLM）年度回顾 | isrosa

Andrej Karpathy的2025年大语言模型（LLM）年度回顾

seed author 2026-1-30 阅览室#Andrej Karpathy#技术解读

发布于:2026-1-30|最后更新: 2026-4-2|

Created time

Feb 25, 2026 08:13 AM

category

library

date

Jan 30, 2026

status

Published

icon

password

slug

andrej-karpathy-2025-llm-review

type

post

likes

views

summary

2025年大语言模型（LLM）在智能和应用层面达到新高度，但仍面临巨大的潜力未被挖掘的挑战。

tags

Andrej Karpathy

技术解读

原文链接： https://karpathy.bearblog.dev/year-in-review-2025/

2025年大语言模型（LLM）年度回顾

2025年是LLM突飞猛进的一年。这一年出现了许多颠覆性的“范式转变”，深刻改变了行业版图。以下是我认为最具代表性的几个关键点：

1. 可验证奖励强化学习（RLVR）：开启“推理”时代

在2025年初，主流的训练流程还是“预训练 + 指令微调（SFT）+ 人类反馈强化学习（RLHF）”。但今年，RLVR（Reinforcement Learning from Verifiable Rewards） 正式成为第四大核心阶段。

逻辑重塑： 通过在数学、代码等具备“客观对错”的环境中进行强化学习，模型自发学会了拆解步骤、自我纠错等类似人类的“推理”策略。

计算重心转移： 不同于轻量级的SFT，RLVR消耗了大量原本用于预训练的算力。

新扩展定律： 算力不再只堆在训练期，通过增加“思考时间”（测试时计算量），模型能力可以进一步攀升。OpenAI 的 o1 和 o3 是这一范式的里程碑。

2. “幽灵”而非“动物”：参差不齐的智能

2025年，我们终于意识到：LLM 的智能形态与生物完全不同。

智能的“锯齿状”特征： LLM 不是在模拟生物进化，而是在“召唤幽灵”。它们在可验证领域（如数学）强得像天才，但在某些基础常识或安全防范上又弱得像小学生。

评测体系崩塌： 由于 RLVR 可以针对特定领域进行“刷榜（Benchmaxxing）”，传统的 Benchmark 已经失效。模型可以轻松刷爆分数，却依然无法达到通用人工智能（AGI）。

3. Cursor 效应：LLM 应用层的新高度

Cursor 的崛起揭示了 LLM 应用的新层级。人们开始谈论“各行各业的 Cursor”。

应用层的技术含量： 优秀的 LLM 应用不再只是简单的封装，而是包含了复杂的上下文工程、多模型协作的 DAG 编排，以及灵活的“自主权调节拨轮”。

分工明确： 模型实验室负责培养“全才大学生”，而应用厂商则通过私有数据和传感器，将这些大学生组织成“专业团队”。

4. Claude Code：常驻本地的 AI 特工

Claude Code (CC) 的出现定义了真正的 AI Agent（智能体） 形式。

回归本地（localhost）： 与 OpenAI 执着于云端环境不同，CC 直接运行在用户的电脑上。它能访问你的私有代码、环境变量和密钥。

从网页到精灵： AI 不再是一个需要专门访问的网站，而是一个“住”在电脑里、随叫随到的灵魂。这种低延迟、高权限的交互范式彻底改变了开发体验。

5. “氛围编程”（Vibe Coding）的兴起

2025年，AI 跨越了门槛，让“只靠英语编程”成为现实。

编程平民化： 编程不再是专业人士的专利。普通人受益于 LLM 的程度远超专业人士。

代码的“易耗品化”： 对于开发者，代码变得廉价且可弃。我可以为了修一个临时 Bug 随手生成一个复杂的 App，用完即扔。代码不再是需要精心维护的资产，而是随手可得的工具。

6. LLM GUI：从命令行到图形界面

Google Gemini Nano Banana 等模型预示了交互方式的巨变。

告别对话框： 现在的“聊天”界面就像 80 年代的命令行（Console）。虽然文字是 AI 的底层语言，但人类更习惯视觉化信息。

原生多模态： 未来的 LLM 不仅生成文字，还会直接生成 UI、图表、幻灯片和网页。AI 将根据你的需求，实时构建最适合阅读的图形界面。

总结（TL;DR）： 2025 年证明了 LLM 既比预想的更聪明，也比预想的更笨拙。即便如此，它们展现出的实用价值仍不及潜力的 10%。行业依然处于大爆发的前夜， progress 极快，但仍有大量未开垦的荒地。请系好安全带。

揭秘 OpenAI Codex 的智能体循环 (Agent Loop)｜OpenAI 随机漫谈-04-AI真的是智力平权吗