欢迎光临 x-algo
关注算法在工业界应用
Hi, 这是一个关注大数据算法在工业界应用的网站

SeqGAN

SeqGAN

如果生成器G生成的结果是离散的序列,例如文本序列,就会到D的梯度无法有效回传;

本文将文本生放到强化学习的框架里面,将每一个字符生成看做是action执行,一个完整的序列生成看做是一个episode,D可以看做是状态价值函数.

结构

13.2.52

做实验的时候先用一个随机的LSTM作为准确分布, 然后对这个分布采样得到正样本.通过这些正样本对G进行预训练,得到pre_G;然后用pre_G生成负样本和正样本训练D,也就是上图的左边.然后D对G进行调整(上图右边).代码实现中直接从第一个节点加权采样实现MCTS,reward的反馈工程上也做了优化,直接在loss里面句子级别加权,和每一个状态加权是等效的.

代码:SeqGAN

未经允许不得转载:大数据算法 » SeqGAN

评论 抢沙发

*

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

关注大数据算法在工业界应用

本站的GitHub关于本站