欢迎光临 x-algo
关注算法在工业界应用
Hi, 这是一个关注大数据算法在工业界应用的网站

强化学习(10)-On-policy Control with Approximation

目标是得到一个q函数,如下:

9.2.9

梯度更新公式为: 9.2.10

9.2.11

Sarsa

需要注意的是,对t时刻的状态 \(S_t\) ,可以选择的action是连续的(或者是离散的,但是非常多),Sarsa算法可以表示为:

9.2.12

n-step Semi-gradient Sarsa

就是将原来Q更新逻辑变为w更新逻辑;e-greedy逻辑来源变为从分布中得到:

9.2.13

9.2.14

9.2.15

平均收益

前面我们所说的状态收益和行为收益都是一种discount的模式, 即随着step的增加,指数级下降.

站在策略的角度,可以定义出来一个策略在接下来一个行为带来的"平均收益"或者"期望收益",记为: \(r(\pi)\) , 可以使用下面两个角度表示:

9.2.16

两个角度分别为:

  1. n-step的平均来表示,这个很容易理解, 就是公式的第一行
  2. 经过无穷多步骤之后, 由于转移概率决定最终状态价值分布, t时刻已经收敛,收敛状态收益的期望就是其收益.

所以可以看到, 如果step size可以无穷大, 每一步的收益又是一个确定的数, \(V(s)\) 的取值也应该是无穷大的.由于收益指数级下降,可以证明出来,采用discount方式会将状态价值收敛到一个确定值,具体证明为:

9.2.17所以对于无穷step的任务,估计状态价值或者行为价值已经没有意义了,这里需要寻找一个新的估计.这个新的估计就是"状态价值收益",具体定义为:

9.2.18 由于这个改变,以前的各种算法都需要重新改写,我就不粘贴公式了..

未经允许不得转载:大数据算法 » 强化学习(10)-On-policy Control with Approximation

评论 抢沙发

*

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

关注大数据算法在工业界应用

本站的GitHub关于本站