Back
从 Q-table 走向深度强化学习
rl
策略分布(Softmax / Gaussian)设计,回报累积与并行采样。
Actor/Critic 输入输出、Replay Buffer、探索噪声、以及各自 update 的关键差异