欢迎光临 x-algo
关注算法在工业界应用
Hi, 这是一个关注大数据算法在工业界应用的网站

强化学习(7)- n-step Bootstrapping

n-step TD和one-step TD区别是向后看的长度,如果向后看的长度到末尾,就等价MC的算法.

n步收益定义

algo1

原始的定义:

snapshot5

2-step的定义:

 

snapshot7

n-step的定义:

snapshot6

其中 \(V_t\) 表示时刻t的时候,对状态价值的预估;

N-step TD

可以先看一下one-step TD.

如果要使用n-step的时序差分, 现实中, 需要执行n步之后才知道对应的收益, 所以迭代公式变为:

snapshot8

上面公式中每一个时刻进行一次迭代, 一次迭代只修改了一个时刻的状态价值;未更新的直接平移过来.  同时会遇到最后一个时刻不存在长度为n的步长, 处理方式是进行降级,  将n-step TD变为 n-1 step TD, n-2 step TD, 直到 1 step TD.

具体算法流程为:

algo

n-step Sarsa

How can n-step methods be used not just for prediction, but for control?

这里和前一章类似,讲状态价值变为状态-行为价值就可以了,具体为:

7.2.3 7.2.2 7.2

本章其余部分先不看,有需要再补上

 

资料

 

《Reinforcement Learning: An Introduction》

 

未经允许不得转载:大数据算法 » 强化学习(7)- n-step Bootstrapping

分享到:更多 ()

评论 抢沙发

*

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

关注大数据算法在工业界应用

本站的GitHub关于本站