Xiaohei's Blog
headpicBlur image

前言#

需要说明的是,这个系列的博客是由我的幕布笔记转化而来,如果你更喜欢图文并茂的阅读,你可以去我的幕布空间进行阅读,受限于篇幅的原因,第十二章幕布笔记在这。如果你发现有哪些地方由逻辑错误,可以通过评论告知我,十分感谢!

开始#

如果你只靠读公式去学 RL,很容易“听懂了,但不会写”。我一直觉得表格型方法是最好的训练场:

它的好处在于,你可以把注意力从神经网络训练那堆噪声里抽出来:不需要 optimizer 的小技巧,不会被归一化和梯度爆炸分心;你写下的每一次更新,都几乎是在把贝尔曼方程“翻译成代码”;而 on-policy/off-policy 这类概念,也会因为表格世界足够透明而变得一眼能看出来。

这一章我们从文档给的脉络出发:先做免模型预测(MC / TD),再过渡到免模型控制(Sarsa / Q-learning)。最后我会补一点“表格法在工程中怎么不翻车”的小技巧。

表格型方法的前提:查找表能装下你的世界#

文档说得很直白:最简单的策略表示就是查找表(look-up table),所以表格型方法的核心资源是:

  • 状态数量 S|S|
  • 动作数量 A|A|

只要 S×A|S| \times |A| 大到装不下内存,或者根本没法枚举(比如连续状态),你就要去深度方法。

但在入门与验证直觉时,表格法仍然无敌。

免模型预测:MC vs TD#

蒙特卡洛策略评估(MC)#

MC 的关键特点:等一个 episode 跑完,再用真实回报更新

优点:无偏(在足够采样下)。 缺点:方差大、更新慢、必须等回合结束。

一步时序差分 TD(0)#

文档里给了 TD target:

TD target=rt+1+γV(st+1)\text{TD target} = r_{t+1} + \gamma V(s_{t+1})

它的气质就是:“我不等结局了,我先用下一步的估计来更新现在。”

优点:在线更新,效率高。 缺点:自举带偏差,且对初始化和学习率更敏感。

免模型控制:从 V(s) 走向 Q(s,a)#

要做控制(找最优策略),仅有 V(s)V(s) 不够,因为你需要比较动作。

文档里强调:用 Q(s,a)Q(s,a) 来判断“在什么状态下采取什么动作能拿到最大奖励”。

在表格世界里,QQ 就是一张“状态 × 动作”的表。

探索:为什么要 ε-greedy#

文档提到一个重要假设:为了保证策略迭代能收敛,通常需要“探索性开始”或足够探索。

工程上最常用的就是 ε-greedy

  • 以概率 ϵ\epsilon 随机选动作(探索)
  • 以概率 1ϵ1-\epsilon 选当前最优动作(利用)

一个现实建议:

  • 一开始 ϵ\epsilon 可以大一点(0.8/1.0);
  • 然后逐渐衰减到一个小但不为 0 的值(0.05/0.1)。

Sarsa:典型 on-policy 控制#

Sarsa 的名字来自于更新所用的五元组:

(st,at,rt+1,st+1,at+1)(s_t, a_t, r_{t+1}, s_{t+1}, a_{t+1})

它用“下一步实际会执行的动作”来做更新,所以是 on-policy。

直觉:

  • 你执行的是 ε-greedy,那么你更新时也会把“偶尔犯傻的随机动作”考虑进去;
  • 因此它更“胆小”,在一些危险环境里反而更安全。

Q-learning:典型 off-policy 控制#

文档把 off-policy 的两个策略说得很好:

  • 行为策略(behavior policy):负责探索、采数据(可以 ε-greedy)。
  • 目标策略(target policy):负责学习最优(通常是贪心)。

Q-learning 的更新用的是 maxaQ(st+1,a)\max_a Q(s_{t+1}, a),对应“我假设未来总能走最优动作”。

直觉:

  • 它可以更大胆地探索,因为学习目标是贪心最优;
  • 但也更容易出现过估计(这在深度版本 DQN 里会更明显)。

本章小结:表格法是“可解释的强化学习”#

表格法的最大价值不在于它能解决多复杂的问题,而在于它能把 RL 的关键问题讲得很透明:

  • 你是否在探索?
  • 你更新用的是实际动作(on-policy)还是最优动作(off-policy)?
  • 你的 α\alphaγ\gamma 是否合理?

从下一章开始,我们会切到另一条主线:策略梯度。当动作空间变得连续、或者我们想直接学一个随机策略分布时,PG 会比 Q 表格更自然。

RL 学习笔记(3):从 MC、TD(0) 到 Sarsa / Q-learning
https://xiaohei-blog.vercel.app/blog/rl-learning-3
Author 红鼻子小黑
Published at May 4, 2025
Comment seems to stuck. Try to refresh?✨