category
library
Created time
Feb 25, 2026 08:13 AM
date
Jan 30, 2026
icon
password
slug
andrej-karpathy-2025-llm-review
status
Published
summary
2025年大语言模型(LLM)年度回顾总结了LLM的重大进展,包括可验证奖励强化学习、智能形式的差异、Cursor效应的崛起、本地AI特工Claude Code的出现、氛围编程的普及以及图形用户界面的变革,强调了LLM的潜力与目前的实际价值之间的差距。
tags
Andrej Karpathy
技术解读
type
post
2025年大语言模型(LLM)年度回顾
2025年是LLM突飞猛进的一年。这一年出现了许多颠覆性的“范式转变”,深刻改变了行业版图。以下是我认为最具代表性的几个关键点:
1. 可验证奖励强化学习(RLVR):开启“推理”时代
在2025年初,主流的训练流程还是“预训练 + 指令微调(SFT)+ 人类反馈强化学习(RLHF)”。但今年,RLVR(Reinforcement Learning from Verifiable Rewards) 正式成为第四大核心阶段。
- 逻辑重塑: 通过在数学、代码等具备“客观对错”的环境中进行强化学习,模型自发学会了拆解步骤、自我纠错等类似人类的“推理”策略。
- 计算重心转移: 不同于轻量级的SFT,RLVR消耗了大量原本用于预训练的算力。
- 新扩展定律: 算力不再只堆在训练期,通过增加“思考时间”(测试时计算量),模型能力可以进一步攀升。OpenAI 的 o1 和 o3 是这一范式的里程碑。
2. “幽灵”而非“动物”:参差不齐的智能
2025年,我们终于意识到:LLM 的智能形态与生物完全不同。
- 智能的“锯齿状”特征: LLM 不是在模拟生物进化,而是在“召唤幽灵”。它们在可验证领域(如数学)强得像天才,但在某些基础常识或安全防范上又弱得像小学生。
- 评测体系崩塌: 由于 RLVR 可以针对特定领域进行“刷榜(Benchmaxxing)”,传统的 Benchmark 已经失效。模型可以轻松刷爆分数,却依然无法达到通用人工智能(AGI)。
3. Cursor 效应:LLM 应用层的新高度
Cursor 的崛起揭示了 LLM 应用的新层级。人们开始谈论“各行各业的 Cursor”。
- 应用层的技术含量: 优秀的 LLM 应用不再只是简单的封装,而是包含了复杂的上下文工程、多模型协作的 DAG 编排,以及灵活的“自主权调节拨轮”。
- 分工明确: 模型实验室负责培养“全才大学生”,而应用厂商则通过私有数据和传感器,将这些大学生组织成“专业团队”。
4. Claude Code:常驻本地的 AI 特工
Claude Code (CC) 的出现定义了真正的 AI Agent(智能体) 形式。
- 回归本地(localhost): 与 OpenAI 执着于云端环境不同,CC 直接运行在用户的电脑上。它能访问你的私有代码、环境变量和密钥。
- 从网页到精灵: AI 不再是一个需要专门访问的网站,而是一个“住”在电脑里、随叫随到的灵魂。这种低延迟、高权限的交互范式彻底改变了开发体验。
5. “氛围编程”(Vibe Coding)的兴起
2025年,AI 跨越了门槛,让“只靠英语编程”成为现实。
- 编程平民化: 编程不再是专业人士的专利。普通人受益于 LLM 的程度远超专业人士。
- 代码的“易耗品化”: 对于开发者,代码变得廉价且可弃。我可以为了修一个临时 Bug 随手生成一个复杂的 App,用完即扔。代码不再是需要精心维护的资产,而是随手可得的工具。
6. LLM GUI:从命令行到图形界面
Google Gemini Nano Banana 等模型预示了交互方式的巨变。
- 告别对话框: 现在的“聊天”界面就像 80 年代的命令行(Console)。虽然文字是 AI 的底层语言,但人类更习惯视觉化信息。
- 原生多模态: 未来的 LLM 不仅生成文字,还会直接生成 UI、图表、幻灯片和网页。AI 将根据你的需求,实时构建最适合阅读的图形界面。
总结(TL;DR):
2025 年证明了 LLM 既比预想的更聪明,也比预想的更笨拙。即便如此,它们展现出的实用价值仍不及潜力的 10%。行业依然处于大爆发的前夜, progress 极快,但仍有大量未开垦的荒地。请系好安全带。