欢迎光临 x-algo
关注算法在工业界应用
Hi, 这是一个关注大数据算法在工业界应用的网站

Adversarial Learning for Neural Dialogue Generation

特点

论文想法类似于SeqGAN,有下面几点不同:

  1. 作用与对话生成,而不是单个序列
  2. 引入一个base model,评估状态价值 \(b(\{x,y\})\) , 这个模型是当前策略 \(\pi\) 下,D的输出作为reward通过强化学习得到.
  3. reward作用在每一个字上,而不是句子级别.
  4. 通过MC采样或者实现一个D对未结束句子做评估
  5. 生成序列的种类是指数级别增加的,G生成的样本大概率都是差的, 所以通过D的reward多数都是抑制类型的梯度.通过加入MLE object缓解这个问题.

基本流程

G优化的目标函数:

13.2.54

不区分token reward梯度版本:

13.2.55

区分token reward梯度版本:

 

13.2.56

算法流程:

13.2.57

训练

  1. 对G和D预训练,和SeqGAN类似,通过G生成样本的时候除了Sample的方式,还加入了beam search方式
  2. 移除对话样本中长度小于5的样本
  3. 使用tf-idf对样本赋权重
  4. 在decode的时候,考虑beam search得到样本更加多样性
  5. 限制某些词出现次数

 

 

未经允许不得转载:大数据算法 » Adversarial Learning for Neural Dialogue Generation

分享到:更多 ()

评论 抢沙发

*

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

关注大数据算法在工业界应用

本站的GitHub关于本站