大数据算法

欢迎光临 x-algo
关注算法在工业界应用
Hi, 这是一个关注大数据算法在工业界应用的网站

最新发布

CNN

DSSM/CDSSM

leihao阅读(72)评论(0)

两个老文章,对搜索文本分模型影响很大. DSSM 其中 \(W_1\) 是hash策略,不是要学的参数,特别的地方就是hash策略.文章通过hash进行降维,本质上还是bag of words模型.最大化有点击的样本的概率. CDSSM 想...

GAN

MaskGAN

leihao阅读(88)评论(0)

  通过"填空"的方式,避免了explosure bias,同时防止了数据稀疏导致的model dropping 算是开conditional GAN之先河 作用到generator局部的损失函数.(如果一个句子只有最后一个字生成...

GAN

RankGAN

leihao阅读(194)评论(0)

这个模型不一样的地方在于,将原来的Discriminator从二分类模型变为一个排序模型,也就是一个Leaning to Rank的问题.所以模型的两个神经网络为:一个generator和一个ranker. ranker 整体的架构和Seq...

NLP

Chinese Poetry Generation with Recurrent Neural Networks

leihao阅读(169)评论(0)

最近研究一下文本生成,记录一下 整体结构 本文结构算是比较复杂的,结构如下图: 具体为: 选择关键词列表 根据关键词得到相似的phrase集合 根据phrase进行组合,得到很多候选诗句 从候选里面选择一个得分最高的,作为第一句 根据以前的...

NLP

SeqGAN

leihao阅读(275)评论(0)

SeqGAN 如果生成器G生成的结果是离散的序列,例如文本序列,就会到D的梯度无法有效回传; 本文将文本生放到强化学习的框架里面,将每一个字符生成看做是action执行,一个完整的序列生成看做是一个episode,D可以看做是状态价值函数....

强化学习

AlphaGo/AlphaGo Zero/AlphaZero

leihao阅读(363)评论(0)

AlphaGo 采用蒙特卡罗搜索树作为搜索框架 两个网络,一个价值网络表示状态价值;一个策略网络(两个网络都是CNN),用来决定每一个状态的action分布. 先用专家棋谱学习策略网络,然后self-play更新这个网络. 专家棋谱学出来的...

强化学习

强化学习(13)- Policy Gradient Methods

leihao阅读(280)评论(0)

引入 状态价值预估这一类方法有没有缺点? 是不是存在一种别的建模方式,在解决特定问题的时候反而更加高效? 这一章介绍的policy gradient就是这类方法, 在解决一些问题上,直接对策略建模会更加有效. 具体为: 期望通过更新其中的参...

关注大数据算法在工业界应用

本站的GitHub关于本站