强化学习问题
问题描述
样本为轨迹
策略
马尔科夫假设:下一个状态
奖励与期望
单步奖励定义为
考虑到近期奖励更重要,加入参数
策略梯度方法
寻找策略
通过网络训练,找到一组
上式的期望采用多次采样来拟合。 更新后的参数
方差
通过将奖励
对于参数b的估计可以采用
重要性采样
重要性采样是一种通过其他分布来估计期望的方法。 对于分布
可以被用来估计
的情况下,可以简化为
这样可以用一次采样的结果优化多次
这种采样策略和待优化的目标策略不是同一策略的方法叫做离线(Off-Policy)方法
PPO算法
基于上面的理论,一方面我们需要优化
上式的
上式的
除此之外还有PPO2算法,PPO2避免了计算KL散度,它采用设定
值函数方法
状态值函数 ,
状态-动作价值函数 ,
可以看出
对于上述两个函数
- 可以采用生成多条轨迹来计算,即 蒙特卡洛方法 。
- 考虑到值函数的递推关系。可以采用 时序差分方法 。递推关系(贝尔曼方程)如下
构造误差项
更新
同理,对于
更新
策略改进需要兼顾最优、探索,因此以一定概率
DQN算法
利用贪心算法的策略
Actor-Critic方法
Actor 通过训练策略
Critic 通过训练
Advantage AC方法
通过Critic计算出
定义动作的优势值
采用目标函数为
以计算Actor的梯度
颜画风的博客