RL 学习笔记（10）：稀疏奖励 • Xiaohei's Blog

前言#

需要说明的是，这个系列的博客是由我的幕布笔记转化而来，如果你更喜欢图文并茂的阅读，你可以去我的幕布空间进行阅读,受限于篇幅的原因，第十二章幕布笔记在这。如果你发现有哪些地方由逻辑错误，可以通过评论告知我，十分感谢！

我觉得稀疏奖励是“最能把人逼疯”的 RL 场景之一：

文档在这一章给了一个非常实用的思路：

你要么自己把奖励设计得更“密集”一些（reward shaping），让智能体能更早看到进步；要么引入内在奖励（curiosity-driven reward），在外在反馈几乎为零时，先用“新奇感”把学习信号撑起来。

我会按这个顺序讲清楚，并重点拆解 ICM 的结构，因为它是很多“内在动机”方法的原型。

文档说“设计奖励就是引导奖励”，这句话很准确：你自己给环境加一些更密集的反馈，让智能体知道自己有没有进步。

常见例子：

文档提到 ICM：给智能体加一个“好奇心”的奖励函数。

ICM 的核心直觉特别漂亮：

如果下一状态很难被预测，说明你到了一个“新奇”的地方，那就给你奖励。

文档给出的结构是：输入 $(s_t, a_t, s_{t+1})$ ，输出内在奖励 $r_t^i$ 。

并且训练时总奖励是：

r_t^{\text{total}} = r_t + \beta r_t^i

其中 $\beta$ 是内在奖励权重。

文档也指出一个关键问题：仅靠好奇心不够，智能体可能沉迷于“噪声”（比如电视雪花）。

解决方法：加 feature extractor，把状态映射到更有意义的特征空间，再在特征空间里做预测误差。

稀疏奖励问题，本质是“学习信号太少”。reward shaping 与 curiosity 是两种造信号的方式：

下一章我们会谈模仿学习：当你连奖励都不想设计，或者奖励很难定义时，用专家示范直接教智能体怎么做。