强化学习问题

问题描述

样本为轨迹 $τ$ ，满足概率 $p_{θ} (τ)$ 的分布，即 $τ \sim p_{θ} (τ)$ ， $θ$ 为策略的参数

策略 $π (a | s)$ 表示从状态 $s$ 执行动作 $a$ 的概率分布，即

\sum_{a_{i} \in A}^{} π (a_{i} | s) = 1

马尔科夫假设：下一个状态 $𝑠_{𝑡 + 1}$ 只与当前的状态𝑠𝑡和执行的动作𝑎𝑡相关，则某个轨迹发生的概率为：

𝑃 (𝑠_{1}, 𝑎_{1}, 𝑠_{2}, 𝑎_{2}, \dots, 𝑠_{𝑇}) = 𝑃 (𝑠_{1}) π (a_{1} | s_{1}) 𝑃 (𝑠_{2}) π (a_{2} | s_{2}) . . .

奖励与期望

单步奖励定义为 $r$ ，对于轨迹 $τ$ 总奖励 $R (τ)$ ，有

R (τ) = \sum r_{t}

考虑到近期奖励更重要，加入参数 $γ \in [0, 1]$ ，上式改写为

R (τ) = \sum γ^{t - 1} r_{t}

策略梯度方法

寻找策略 $π (a | s)$ 使得总奖励 $R (τ)$ 最大是我们的目标。由于环境与策略有随机性，所以希望 $R (τ)$ 的期望最大，即

L (θ) \overset{d e f}{=} J (π_{θ}) = E_{τ} [R (τ)] = \int π_{θ} (τ) R (τ) d τ

$L (θ)$ 是我们的训练目标函数。
通过网络训练，找到一组 $θ$ 代表的网路 $π_{θ}$ ，使得上式最大。

\frac{\partial J}{\partial θ} = E_{τ} [\frac{\partial}{\partial θ} \log_{} π_{θ} (τ) \cdot R (τ)] = E_{τ} [\frac{\partial}{\partial θ} \sum \log_{} π_{θ} (a_{t} | s_{t}) \cdot R (τ)]

L (θ) = E_{t} [\log_{} π_{θ} (a_{t} | s_{t}) \cdot A_{t}]

上式的期望采用多次采样来拟合。更新后的参数 $θ^{'}$ 为下式

θ^{'} = θ + μ \cdot \frac{\partial J}{\partial θ}

方差

通过将奖励 $R (τ)$ 分布在0周围，可以减小方差。一个简单的方法是加入偏置b，即

R (τ) - b

对于参数b的估计可以采用 $R (τ)$ 的均值

重要性采样

重要性采样是一种通过其他分布来估计期望的方法。对于分布 $p_{θ}$ ，和历史的某一分布 $p_{\bar{θ}}$ ，

J_{\bar{θ}} = E_{τ} [R (τ)] = \sum_{t} E_{s_{t}} [\frac{p_{θ} (\cdot)}{p_{\bar{θ}} (\cdot)} \cdot E_{a_{t}} [\frac{π_{θ}}{π_{\bar{θ}}} \cdot r_{t}]]

可以被用来估计 $J_{θ}$ 在

\frac{p_{θ} (s_{t})}{p_{\bar{θ}} (s_{t})} \approx 1

的情况下，可以简化为

J_{\bar{θ}} = \sum_{t} E_{s_{t}} [E_{a_{t}} [\frac{π_{θ}}{π_{\bar{θ}}} \cdot r_{t}]] = \sum_{t} E_{(s_{t}, a_{t})} [\frac{π_{θ}}{π_{\bar{θ}}} \cdot r_{t}]

这样可以用一次采样的结果优化多次 $θ$
这种采样策略和待优化的目标策略不是同一策略的方法叫做离线(Off-Policy)方法

PPO算法

基于上面的理论，一方面我们需要优化 $J$ ，另一方面我们希望两个 $θ, θ^{'}$ 相似，否则无法重要性采样。采样通过当前状态的 $π_{θ} (a_{t} | s_{t}) 。$
$J^{θ^{'}} (θ)$ 表示用 $θ^{'}$ 优化 $θ$ 的目标函数。PPO算法是一种同策略算法。公式如下

J_{PPO} (θ) = J^{θ^{'}} (θ) - β KL (θ, θ^{'})

上式的 $KL (θ, θ^{'})$ 描述 $θ, θ^{'}$ 的相似程度，表示为动作的距离。
上式的 $β$ 是动态的，如果 $KL (θ, θ^{k}) > {KL}_{m a x}$ ，增大 $β$ ；如果 $KL (θ, θ^{k}) < {KL}_{m i n}$ ，减小 $β$

除此之外还有PPO2算法，PPO2避免了计算KL散度，它采用设定 $\frac{π_{θ} (\cdot)}{π_{\bar{θ}} (\cdot)}$ 上下界的方式，将其限制在1附近。

值函数方法

状态值函数 ， $V$ 函数，定义为从状态 $s_{t}$ 开始，策略 $π$ 下的期望回报。
状态-动作价值函数 ， $q$ 函数，定义从状态 $s_{t}$ 和动作 $a_{t}$ 开始，策略 $π$ 下的期望回报。
可以看出

V_{s_{t}} = max_{a_{t}} Q_{s_{t}} (a_{t})

对于上述两个函数 $V, Q$

可以采用生成多条轨迹来计算，即 蒙特卡洛方法 。

V = \frac{1}{N} \sum R (τ)

考虑到值函数的递推关系。可以采用 时序差分方法 。递推关系(贝尔曼方程)如下

V_{t}^{π} = E_{τ} [r_{t} + γ V_{t + 1}^{π})]

构造误差项

δ = r_{t} + γ V_{t + 1}^{π} - V_{t}^{π}

更新 $V$ 函数为 $V_{t}^{π} + α δ$ ， $α \in [0, 1]$
同理，对于 $Q$ 函数

δ = r_{t} + γ max_{a_{t}} Q_{t + 1}^{π} - Q_{t}^{π}

更新 $Q$ 函数为 $Q_{t}^{π} + α δ$ ， $α \in [0, 1]$
策略改进需要兼顾最优、探索，因此以一定概率 $ϵ$ 进行随机， $1 - ϵ$ 的概率选择最优，记为贪心算法。

DQN算法

利用贪心算法的策略 $π$ ，获得的数据存到memory中，数据足够多的时候开始训练Q，训练结束后更新Q。

Actor-Critic方法

Actor 通过训练策略 $π_{θ}$ 更新 $θ$
Critic 通过训练 $V_{ϕ}$ 更新 $ϕ$

Advantage AC方法

通过Critic计算出 $V$
定义动作的优势值 $A_{t} = δ = r_{t} + γ V_{t + 1}^{π} - V_{t}^{π}$
采用目标函数为

L^{P G} (θ) = E_{t} [\log_{} π_{θ} (a_{t} | s_{t}) \cdot A_{t}]

以计算Actor的梯度

强化学习问题 ​

问题描述 ​

奖励与期望 ​

策略梯度方法 ​

方差 ​

重要性采样 ​

PPO算法 ​

值函数方法 ​

DQN算法 ​

Actor-Critic方法 ​

Advantage AC方法 ​