非技术背景的强化学习入门:不完全学习资料清单(25年5月)
最近几个月关注AI的朋友们应该都有注意到强化学习(RL)这个词的出现频率越来越高。其实强化学习并不算是新技术,但是LLM领域对强化学习的重视度确实在这半年左右突飞猛进,最近强化学习之父Sutton的新文章也在网上被疯转。但是对于非技术背景的人来说,到底RL是什么?与我们有什么关系?
我根据个人阅读记录和偏好,整理了一份适合非技术背景人士入门RL的材料清单,希望能帮助没有深厚技术背景的同学们推开RL学习的大门。 清单中的大部分内容收录于4月底,仅作为入门参考和抛砖引玉,欢迎大家留言补充和交流!
🥉 青铜级:播客启蒙,轻松入门
这些播客能让你对强化学习的概念和用途有一个初步的、感性的认识。请根据名称前往小宇宙搜索收听。
- 《一堂「强化学习」大师课》
- —— 来自:42章经
- 《与马毅聊智能史:“DNA 是最早的大模型”,智能的本质是减熵》
- —— 来自:晚点聊LateTalk
- 《我是这样用 RL + LLM 做 Agent 的|对谈 Pokee AI 创始人朱哲清 Bill》
- —— 来自:42章经
- 《走向强化学习:Agent 还是应用公司的机会吗?对话 Pokee.ai 创始人》
- —— 来自:硅基觉醒
- 《Agent 开发的上半场:环境、Tools 和 Context 如何决定 Agent》
- —— 来自:42章经
- 《强化学习的前世今生》
- —— 来自:科技慢半拍
经典回顾:早期播客,仍具价值
以下是一些发布时间较早,但依旧富有洞见、适合温故而知新的播客:
- 《AGI 范式大转移:和广密预言草莓、OpenAI o1 和 self-play RL》
- —— 来自:张小珺Jùn|商业访谈录
- 《逐句讲解 DeepSeek-R1、Kimi K1.5、OpenAI o1 技术报告 ——“最优美的算法最干净”》
- —— 来自:张小珺Jùn|商业访谈录
- 《对话 Google Deepmind 研究员:OpenAI o1 及LLM+RL 新范式》
- —— 来自:OnBoard!
🥈 白银级:视频讲座与文章,拓展视野
此阶段的材料将帮助你系统性地了解RL与LLM技术相关的概念,为深入学习打下基础,并理解RL对于LLM的重要性、为什么这几个月RL热度飙升。
- Andrej Karpathy - 《Deep Dive into LLMs like ChatGPT》 (视频)
- 📝 备注:虽然不完全是关于RL的,但强烈建议先观看,以便先系统了解大语言模型(LLM)。
- Sam Lehman - 《The World's RL Gym》
- Sutton 与 Deepmind - 《Welcome to the Era of Experience》
- 📝 备注:引言中提到的文字,来自强化学习之父Richard Sutton与谷歌Deepmind合著。必读。
- 《Richard Sutton on Pursuing AGI Through Reinforcement Learning》 (视频)
- 📝 备注:配合前一篇文章,通过这个视频了解Sutton对于RL与AGI的理念。
🥇 黄金级:核心论文与报告,深入原理
阅读这些技术报告和官方论文,开始深入了解RL在LLM中的实际运用。
- OpenAI o1 技术报告 - 《Learning to reason with LLMs》
- Deepseek官方论文 - 《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》
- Sebastian Raschka - 《The State of Reinforcement Learning for LLM Reasoning》
💚 翡翠级:前沿洞察,深度思辨
在了解了RL的价值和作用后,通过这些材料关注RL的一些批判性思考和最新技术趋势。这一部分还有更多重要的新论文和技术发展没有收录,欢迎补充和推荐。
- 《Transformer原作、斯坦福、清华交大三篇论文共识:基座模型边界锁死RL能力上限》
- 📝 备注:这是一篇公众号的概述文章,建议有能力的话阅读相关原文以获得更全面的理解。
- 《OpenAI's o3: Over-optimization is back and weirder than ever》
💎 钻石级:经典巨著,奠定基石
这是RL领域的奠基之作,适合希望在技术角度更系统、深入学习理论的同学。
- Sutton and Barto - 《Reinforcement Learning: An Introduction》
- 📝 个人心得:坦白说,我还没学到这个层次,非常欢迎大佬们补充这个阶段或更高阶适用的学习资料!
这份清单远非完美,正如RL领域本身也在不断进化。我个人尚未涉猎的优质内容浩如烟海。因此,再次真诚地邀请您:如果您有任何宝贵的学习资料、心得体会,或者对这份清单的建议,都非常欢迎在评论区留言分享。让其实还有很多优质的资料未能一一列举(主要是我也还没来得及学习 😅),非常期待大家在评论区分享你认为有价值的RL学习资源!🥹
📚 扩展阅读
- 《A brief history of intelligence》 一本从生物讲起人类智能起源的书,通过理解大脑的演化,可以帮助你对于实现真正人工智能的关键有更多思考。