4.5_策略梯度定理

在这个选修部分中，我们将研究如何我们将对用于近似策略梯度的目标函数进行微分。

让我们首先回顾一下我们的不同公式：

所以我们有：

(\nabla_{θ} J (θ) = \nabla_{θ} \sum_{τ} P (τ; θ) R (τ))

我们可以将求和的梯度重写为梯度求和：

(= \sum_{τ} \nabla_{θ} P (τ; θ) R (τ))

然 后 我 们 将 总 和 中 的 每 一 项 乘 以 (\frac{P (τ; θ)}{P (τ; θ)} （ 这 是 可 能 的 ， 因 为 它 = 1 ） (= \sum_{τ} \frac{P (τ; θ)}{P (τ; θ)} \nabla_{θ} P (τ; θ) R (τ))

我 们 可 以 进 一 步 简 化 这 个 因 为 (\frac{P (τ; θ)}{P (τ; θ)} \nabla_{θ} P (τ; θ) = P (τ; θ) \frac{\nabla_{θ} P (τ; θ)}{P (τ; θ)}) (= \sum_{τ} P (τ; θ) \frac{\nabla_{θ} P (τ; θ)}{P (τ; θ)} R (τ))

接着我们可以运用“对数求导技巧”（也称“似然比技巧”或“REINFORCE技巧”），
这是微积分中的一个简单规则，它意味着 $$$ \nabla_x log f(x) = \frac{\nabla_x f(x)}{f(x)} $

$ $ 因 此 ， 对 于 我 们 已 有 的 (\frac{\nabla_{θ} P (τ; θ)}{P (τ; θ)}) ， 我 们 将 其 转 化 为 (\nabla_{θ} l o g P (τ | θ))

因此，这就是我们的似然策略梯度：

(\nabla_{θ} J (θ) = \sum_{τ} P (τ; θ) \nabla_{θ} l o g P (τ; θ) R (τ))

感谢这个新公式，我们可以使用轨迹样本来估计梯度（如果你愿意，我们可以使用基于样本的估计来近似似然比策略梯度）

(\nabla_{θ} J (θ) = \frac{1}{m} \sum_{i = 1}^{m} \nabla_{θ} \log P (τ^{(i)}; θ) R (τ^{(i)})) ， 其 中 每 个 (τ^{(i)}) 都 是 一 个 采 样 的 轨 迹 。

但是我们还有一些数学工作要做：我们需要简化 $ \nabla_\theta log P(\tau|\theta) $

我们知道：

(\nabla_{θ} l o g P (τ^{(i)}; θ) = \nabla_{θ} l o g [μ (s_{0}) \prod_{t = 0}^{H} P (s_{t + 1}^{(i)} | s_{t}^{(i)}, a_{t}^{(i)}) π_{θ} (a_{t}^{(i)} | s_{t}^{(i)})])

这 里 的 (μ (s_{0})) 是 初 始 状 态 分 布 ， (P (s_{t + 1}^{(i)} | s_{t}^{(i)}, a_{t}^{(i)})) 是 M D P 的 状 态 转 移 动 力 学 。

我们知道一个对数的乘积等于两个对数之和：

(\nabla_{θ} l o g P (τ^{(i)}; θ) = \nabla_{θ} [l o g μ (s_{0}) + \sum_{t = 0}^{H} l o g P (s_{t + 1}^{(i)} | s_{t}^{(i)} a_{t}^{(i)}) + \sum_{t = 0}^{H} l o g π_{θ} (a_{t}^{(i)} | s_{t}^{(i)})])

我们也知道和的梯度等于梯度的和：

(\nabla_{θ} l o g P (τ^{(i)}; θ) = \nabla_{θ} l o g μ (s_{0}) + \nabla_{θ} \sum_{t = 0}^{H} l o g P (s_{t + 1}^{(i)} | s_{t}^{(i)} a_{t}^{(i)}) + \nabla_{θ} \sum_{t = 0}^{H} l o g π_{θ} (a_{t}^{(i)} | s_{t}^{(i)}))

由于 MDP 的初始状态分布或状态转换动力学都不依赖于 $\theta$ ，两项的导数都是 0。因此我们可以移除它们：

因此：

(\nabla_{θ} \sum_{t = 0}^{H} l o g P (s_{t + 1}^{(i)} | s_{t}^{(i)} a_{t}^{(i)}) = 0) a n d (\nabla_{θ} μ (s_{0}) = 0) (\nabla_{θ} l o g P (τ^{(i)}; θ) = \nabla_{θ} \sum_{t = 0}^{H} l o g π_{θ} (a_{t}^{(i)} | s_{t}^{(i)}))

我们可以将求和的梯度重写为梯度求和：

(\nabla_{θ} l o g P (τ^{(i)}; θ) = \sum_{t = 0}^{H} \nabla_{θ} l o g π_{θ} (a_{t}^{(i)} | s_{t}^{(i)})) 因 此 ， 估 计 策 略 梯 度 的 最 终 公 式 为 ：

(\nabla_{θ} J (θ) = \hat{g} = \frac{1}{m} \sum_{i = 1}^{m} \sum_{t = 0}^{H} \nabla_{θ} \log π_{θ} (a_{t}^{(i)} | s_{t}^{(i)}) R (τ^{(i)}))