欢迎光临 x-algo
关注算法在工业界应用
Hi, 这是一个关注大数据算法在工业界应用的网站

leihao的文章

第2页
NLP

SeqGAN

leihao阅读(1472)评论(0)

SeqGAN 如果生成器G生成的结果是离散的序列,例如文本序列,就会到D的梯度无法有效回传; 本文将文本生放到强化学习的框架里面,将每一个字符生成看做是action执行,一个完整的序列生成看做是一个episode,D可以看做是状态价值函数....

强化学习

AlphaGo/AlphaGo Zero/AlphaZero

leihao阅读(1174)评论(0)

AlphaGo 采用蒙特卡罗搜索树作为搜索框架 两个网络,一个价值网络表示状态价值;一个策略网络(两个网络都是CNN),用来决定每一个状态的action分布. 先用专家棋谱学习策略网络,然后self-play更新这个网络. 专家棋谱学出来的...

强化学习

强化学习(13)- Policy Gradient Methods

leihao阅读(1742)评论(0)

引入 状态价值预估这一类方法有没有缺点? 是不是存在一种别的建模方式,在解决特定问题的时候反而更加高效? 这一章介绍的policy gradient就是这类方法, 在解决一些问题上,直接对策略建模会更加有效. 具体为: 期望通过更新其中的参...

强化学习

强化学习(6)-时序差分

leihao阅读(1173)评论(0)

如果可以用一个方法来「代表」强化学习的核心思想,可以毫无疑问的肯定,就是:时序差分(temporal-difference (TD);具体的,时序差分 = 蒙特卡洛 + 动态规划。 TD Prediction 关键步骤在: \(V(s) \...

NLP

半监督CRF

leihao阅读(3187)评论(1)

论文点击此处 分词的任务中,得到标注的语料是非常昂贵的;在互联网的上,有很多方式可以获得一个句子中部分,例如wiki中的书名号和超链接.中文分词可以看做一个序列标注的任务. 原理 图片来源:此处 原理其实很简单,就是修改一下目标函数,对不知...

NLP

Scalable Topical Phrase Mining from Text Corpora 原理介绍

leihao阅读(3242)评论(0)

原文地址:请戳我 传统的主题模型中,都是在词的粒度进行建模,一个词会有多个主题(例如LDA)。其实在给定的语境之下,一个词的主题基本是确定的。对于一个phrase,可以认为其内部的word的主题是相同的。和传统的LDA相比,就是对哪些词属于...

关注大数据算法在工业界应用

本站的GitHub关于本站