非技术背景的强化学习入门：不完全学习资料清单（25年5月）

2025-06-30·original #RL #资源分享

1,247 字 · 约 3 分钟

最近几个月关注AI的朋友们应该都有注意到强化学习（RL）这个词的出现频率越来越高。其实强化学习并不算是新技术，但是LLM领域对强化学习的重视度确实在这半年左右突飞猛进，最近强化学习之父Sutton的新文章也在网上被疯转。但是对于非技术背景的人来说，到底RL是什么？与我们有什么关系？

我根据个人阅读记录和偏好，整理了一份适合非技术背景人士入门RL的材料清单，希望能帮助没有深厚技术背景的同学们推开RL学习的大门。 清单中的大部分内容收录于4月底，仅作为入门参考和抛砖引玉，欢迎大家留言补充和交流！

🥉 青铜级：播客启蒙，轻松入门

💡

这些播客能让你对强化学习的概念和用途有一个初步的、感性的认识。请根据名称前往小宇宙搜索收听。

《一堂「强化学习」大师课》
- —— 来自：42章经
《与马毅聊智能史:“DNA 是最早的大模型”，智能的本质是减熵》
- —— 来自：晚点聊LateTalk
《我是这样用 RL + LLM 做 Agent 的｜对谈 Pokee AI 创始人朱哲清 Bill》
- —— 来自：42章经
《走向强化学习：Agent 还是应用公司的机会吗？对话 Pokee.ai 创始人》
- —— 来自：硅基觉醒
《Agent 开发的上半场：环境、Tools 和 Context 如何决定 Agent》
- —— 来自：42章经
《强化学习的前世今生》
- —— 来自：科技慢半拍

经典回顾：早期播客，仍具价值

以下是一些发布时间较早，但依旧富有洞见、适合温故而知新的播客：

《AGI 范式大转移：和广密预言草莓、OpenAI o1 和 self-play RL》
- —— 来自：张小珺Jùn｜商业访谈录
《逐句讲解 DeepSeek-R1、Kimi K1.5、OpenAI o1 技术报告 ——“最优美的算法最干净”》
- —— 来自：张小珺Jùn｜商业访谈录
《对话 Google Deepmind 研究员：OpenAI o1 及LLM+RL 新范式》
- —— 来自：OnBoard!

🥈 白银级：视频讲座与文章，拓展视野

💡

此阶段的材料将帮助你系统性地了解RL与LLM技术相关的概念，为深入学习打下基础，并理解RL对于LLM的重要性、为什么这几个月RL热度飙升。

Andrej Karpathy - 《Deep Dive into LLMs like ChatGPT》 (视频)
- 📝 备注：虽然不完全是关于RL的，但强烈建议先观看，以便先系统了解大语言模型（LLM）。
Sam Lehman - 《The World's RL Gym》
Sutton 与 Deepmind - 《Welcome to the Era of Experience》
- 📝 备注：引言中提到的文字，来自强化学习之父Richard Sutton与谷歌Deepmind合著。必读。
《Richard Sutton on Pursuing AGI Through Reinforcement Learning》 (视频)
- 📝 备注：配合前一篇文章，通过这个视频了解Sutton对于RL与AGI的理念。

🥇 黄金级：核心论文与报告，深入原理

💡

阅读这些技术报告和官方论文，开始深入了解RL在LLM中的实际运用。

OpenAI o1 技术报告 - 《Learning to reason with LLMs》
Deepseek官方论文 - 《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》
Sebastian Raschka - 《The State of Reinforcement Learning for LLM Reasoning》

💚 翡翠级：前沿洞察，深度思辨

💡

在了解了RL的价值和作用后，通过这些材料关注RL的一些批判性思考和最新技术趋势。这一部分还有更多重要的新论文和技术发展没有收录，欢迎补充和推荐。

《Transformer原作、斯坦福、清华交大三篇论文共识：基座模型边界锁死RL能力上限》
- 📝 备注：这是一篇公众号的概述文章，建议有能力的话阅读相关原文以获得更全面的理解。
《OpenAI's o3: Over-optimization is back and weirder than ever》

💎 钻石级：经典巨著，奠定基石

这是RL领域的奠基之作，适合希望在技术角度更系统、深入学习理论的同学。

Sutton and Barto - 《Reinforcement Learning: An Introduction》
📝 个人心得：坦白说，我还没学到这个层次，非常欢迎大佬们补充这个阶段或更高阶适用的学习资料！

这份清单远非完美，正如RL领域本身也在不断进化。我个人尚未涉猎的优质内容浩如烟海。因此，再次真诚地邀请您：如果您有任何宝贵的学习资料、心得体会，或者对这份清单的建议，都非常欢迎在评论区留言分享。让其实还有很多优质的资料未能一一列举（主要是我也还没来得及学习 😅），非常期待大家在评论区分享你认为有价值的RL学习资源！🥹

📚 扩展阅读

《A brief history of intelligence》 一本从生物讲起人类智能起源的书，通过理解大脑的演化，可以帮助你对于实现真正人工智能的关键有更多思考。

如果这篇文章对你有帮助，欢迎点个赞 :)