欢迎光临 x-algo
关注算法在工业界应用
Hi, 这是一个关注大数据算法在工业界应用的网站

读书

第2页

强化学习(5)-蒙特卡洛

leihao阅读(3531)评论(0)

了解「概率模拟」的应该都熟悉这个方法,LDA的Gibbs Sample就用到了这个方法。蒙特卡洛方法,不需要对环境建立「完美」模型。本文用大白话总结就是:通过数数实现action的价值预估。 Monte Carlo Policy Evalu...

强化学习(4)-动态规划

leihao阅读(1560)评论(0)

动态规划、蒙特卡洛、时序差分是三种解决有限马尔科夫决策的有效方法,方法各有优缺点,本文先介绍「动态规划」。 在数学上,动态规划方法比较优美,但是需要对环境建立一个完整且准确的模型;蒙特卡洛方法不需要一个模型,并且非常简单,但是不善于渐进计算...

强化学习(3)-定义问题

leihao阅读(1643)评论(0)

Agent–Environment Interface 有两个很重要的组件,agent和environment,agent可以看做是「learner and decision-maker」,和agent交互的外部因素的总和是environm...

强化学习(2)-Bandit问题

leihao阅读(1780)评论(0)

熟悉EE的对这个问题应该不陌生,可以看文章:推荐系统的EE问题及Bandit算法得到更多信息。 文中evaluative feedback和instructive feedback愣是没看懂啥意思 n-Armed Bandit Proble...

强化学习(1)-介绍

leihao阅读(1409)评论(0)

本文读书笔记《Reinforcement Learning: An Introduction》 对人类来说,学习离不开和环境的交互。对原始的人类,在没有老师传授知识的时候,人类通过和环境的「交互」学习;经过多轮和环境交互,最终总结出规律,知...

线性映射

leihao阅读(1625)评论(0)

前文对向量空间进行了各种定义,跟人感觉比较枯燥和不实用。本文的内容开始渐入佳境,有很多有意思的结论。比如为什么矩阵乘法的定义那么奇怪,以及对映射的一些分类。 上图来源于此处 定义 线性映射在有的教材中也被成为「线性变换」,映射有线性和非线性...

向量空间

leihao阅读(641)评论(0)

线性代数的研究对象是在「限维度」的空间的「线性映射」. 向量空间定义 向量空间(vector space)就是带有「加法」和「标量乘法」的集合V,使得下面性质成立: 交换性:对所有的 \(u,v \in V\) ,都有 \(u+v=v+u\...

关注大数据算法在工业界应用

本站的GitHub关于本站