RL 学习笔记（3）：从 MC、TD(0) 到 Sarsa / Q-learning • Xiaohei's Blog

前言#

需要说明的是，这个系列的博客是由我的幕布笔记转化而来，如果你更喜欢图文并茂的阅读，你可以去我的幕布空间进行阅读,受限于篇幅的原因，第十二章幕布笔记在这。如果你发现有哪些地方由逻辑错误，可以通过评论告知我，十分感谢！

如果你只靠读公式去学 RL，很容易“听懂了，但不会写”。我一直觉得表格型方法是最好的训练场：

它的好处在于，你可以把注意力从神经网络训练那堆噪声里抽出来：不需要 optimizer 的小技巧，不会被归一化和梯度爆炸分心；你写下的每一次更新，都几乎是在把贝尔曼方程“翻译成代码”；而 on-policy/off-policy 这类概念，也会因为表格世界足够透明而变得一眼能看出来。

这一章我们从文档给的脉络出发：先做免模型预测（MC / TD），再过渡到免模型控制（Sarsa / Q-learning）。最后我会补一点“表格法在工程中怎么不翻车”的小技巧。

文档说得很直白：最简单的策略表示就是查找表（look-up table），所以表格型方法的核心资源是：

只要 $|S| \times |A|$ 大到装不下内存，或者根本没法枚举（比如连续状态），你就要去深度方法。

但在入门与验证直觉时，表格法仍然无敌。

MC 的关键特点：等一个 episode 跑完，再用真实回报更新。

优点：无偏（在足够采样下）。缺点：方差大、更新慢、必须等回合结束。

文档里给了 TD target：

\text{TD target} = r_{t+1} + \gamma V(s_{t+1})

它的气质就是：“我不等结局了，我先用下一步的估计来更新现在。”

优点：在线更新，效率高。缺点：自举带偏差，且对初始化和学习率更敏感。

要做控制（找最优策略），仅有 $V(s)$ 不够，因为你需要比较动作。

文档里强调：用 $Q(s,a)$ 来判断“在什么状态下采取什么动作能拿到最大奖励”。

在表格世界里， $Q$ 就是一张“状态 × 动作”的表。

文档提到一个重要假设：为了保证策略迭代能收敛，通常需要“探索性开始”或足够探索。

工程上最常用的就是 ε-greedy：

一个现实建议：

Sarsa 的名字来自于更新所用的五元组：

$(s_t, a_t, r_{t+1}, s_{t+1}, a_{t+1})$

它用“下一步实际会执行的动作”来做更新，所以是 on-policy。

直觉：

文档把 off-policy 的两个策略说得很好：

Q-learning 的更新用的是 $\max_a Q(s_{t+1}, a)$ ，对应“我假设未来总能走最优动作”。

直觉：

表格法的最大价值不在于它能解决多复杂的问题，而在于它能把 RL 的关键问题讲得很透明：

从下一章开始，我们会切到另一条主线：策略梯度。当动作空间变得连续、或者我们想直接学一个随机策略分布时，PG 会比 Q 表格更自然。