RL 学习笔记（2）：MDP、MRP 与贝尔曼方程 • Xiaohei's Blog

前言#

需要说明的是，这个系列的博客是由我的幕布笔记转化而来，如果你更喜欢图文并茂的阅读，你可以去我的幕布空间进行阅读,受限于篇幅的原因，第十二章幕布笔记在这。如果你发现有哪些地方由逻辑错误，可以通过评论告知我，十分感谢！

MDP 这章很容易被写成“符号堆砌”，但我更喜欢把它当成一种工程语言：当你抱怨“奖励太延迟、我不知道该怪哪一步动作”时，MDP 给了你一套把问题拆清楚的坐标系。

读完这一章，你应该能回答三个实用问题：

我更希望你带着三个很“落地”的问题往下读：马尔可夫性到底是什么，它为什么是很多算法正确性的前提；贝尔曼方程在工程里到底在干嘛，为什么大家都执着于反复迭代它；以及“预测”和“控制”的边界应该怎么划分——也就是策略迭代和价值迭代分别在什么场景下更趁手。

文档对马尔可夫性质的描述很经典：给定当前状态和所有过去状态，未来只依赖当前状态。

换成更工程的说法：

只要你的 state 设计得够好，你就不需要记住全部历史。

如果环境提供的 observation 不满足马尔可夫性（部分可观测），你就需要在算法外做补救：堆叠帧、RNN、或者构造 belief。

只有状态转移，没有奖励和动作。

在马尔可夫链上加了奖励函数，核心产物是状态价值：

V(s) = \mathbb{E}[G_t | s_t=s]

其中回报 $G_t$ 是折扣奖励累积：

G_t = r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \cdots

折扣因子 $\gamma$ 在实战里几乎就是“长远程度”的旋钮。

文档里提到贝尔曼方程定义了当前与未来的关系。它的意义在于：

在 MRP 下的形式可以理解为：

V(s) = \mathbb{E}[r_{t+1} + \gamma V(s_{t+1}) | s_t=s]

这句式子就是后面动态规划、TD 学习、甚至深度 RL 的祖宗。

文档把三类方法并列得很好，我再补一点“你写代码时会怎么选”：

MDP 相比 MRP 多了动作：未来不仅依赖当前状态，也依赖智能体在当前状态采取的动作。

MDP 的核心对象是：

文档这段是考试高频，但对工程也很关键：

简单说：

两步循环：

直接对贝尔曼最优方程迭代，得到 $V^*$ ，再提取 $\pi^*$ 。

我一直觉得 MDP 像“地图”：它告诉你 RL 里有哪些变量、哪些依赖关系是算法成立的前提。

后面你会看到：

下一章我们就从最朴素的地方开始：如果状态空间不大，直接用表格去学，会发生什么？