欢迎光临 x-algo
关注算法在工业界应用
Hi, 这是一个关注大数据算法在工业界应用的网站

读书

第2页

强化学习(7)- n-step Bootstrapping

leihao阅读(602)评论(0)

n-step TD和one-step TD区别是向后看的长度,如果向后看的长度到末尾,就等价MC的算法. n步收益定义 原始的定义: 2-step的定义:   n-step的定义: 其中 \(V_t\) 表示时刻t的时候,对状态价...

强化学习(6)-时序差分

leihao阅读(694)评论(0)

如果可以用一个方法来「代表」强化学习的核心思想,可以毫无疑问的肯定,就是:时序差分(temporal-difference (TD);具体的,时序差分 = 蒙特卡洛 + 动态规划。 TD Prediction 关键步骤在: \(V(s) \...

强化学习(5)-蒙特卡洛

leihao阅读(4069)评论(0)

了解「概率模拟」的应该都熟悉这个方法,LDA的Gibbs Sample就用到了这个方法。蒙特卡洛方法,不需要对环境建立「完美」模型。本文用大白话总结就是:通过数数实现action的价值预估。 Monte Carlo Policy Evalu...

强化学习(4)-动态规划

leihao阅读(1744)评论(0)

动态规划、蒙特卡洛、时序差分是三种解决有限马尔科夫决策的有效方法,方法各有优缺点,本文先介绍「动态规划」。 在数学上,动态规划方法比较优美,但是需要对环境建立一个完整且准确的模型;蒙特卡洛方法不需要一个模型,并且非常简单,但是不善于渐进计算...

强化学习(3)-定义问题

leihao阅读(1926)评论(0)

Agent–Environment Interface 有两个很重要的组件,agent和environment,agent可以看做是「learner and decision-maker」,和agent交互的外部因素的总和是environm...

强化学习(2)-Bandit问题

leihao阅读(2295)评论(0)

熟悉EE的对这个问题应该不陌生,可以看文章:推荐系统的EE问题及Bandit算法得到更多信息。 文中evaluative feedback和instructive feedback愣是没看懂啥意思 n-Armed Bandit Proble...

强化学习(1)-介绍

leihao阅读(1811)评论(0)

本文读书笔记《Reinforcement Learning: An Introduction》 对人类来说,学习离不开和环境的交互。对原始的人类,在没有老师传授知识的时候,人类通过和环境的「交互」学习;经过多轮和环境交互,最终总结出规律,知...

线性映射

leihao阅读(2253)评论(0)

前文对向量空间进行了各种定义,跟人感觉比较枯燥和不实用。本文的内容开始渐入佳境,有很多有意思的结论。比如为什么矩阵乘法的定义那么奇怪,以及对映射的一些分类。 上图来源于此处 定义 线性映射在有的教材中也被成为「线性变换」,映射有线性和非线性...

向量空间

leihao阅读(859)评论(0)

线性代数的研究对象是在「限维度」的空间的「线性映射」. 向量空间定义 向量空间(vector space)就是带有「加法」和「标量乘法」的集合V,使得下面性质成立: 交换性:对所有的 \(u,v \in V\) ,都有 \(u+v=v+u\...

关注大数据算法在工业界应用

本站的GitHub关于本站