欢迎光临 x-algo
关注算法在工业界应用
Hi, 这是一个关注大数据算法在工业界应用的网站

2018年02月的文章

强化学习

强化学习(6)-时序差分

leihao阅读(690)评论(0)

如果可以用一个方法来「代表」强化学习的核心思想,可以毫无疑问的肯定,就是:时序差分(temporal-difference (TD);具体的,时序差分 = 蒙特卡洛 + 动态规划。 TD Prediction 关键步骤在: \(V(s) \...

关注大数据算法在工业界应用

本站的GitHub关于本站