
Adversarial Learning of Task-Oriented Neural Dialog Models
通过这个论文发现还有User的simulator,将来关注一下 论文:Adversarial Learning of Task-Oriented Neural Dialog Models reward获取 设计reward是关键问题,对于对...
通过这个论文发现还有User的simulator,将来关注一下 论文:Adversarial Learning of Task-Oriented Neural Dialog Models reward获取 设计reward是关键问题,对于对...
通过"填空"的方式,避免了explosure bias,同时防止了数据稀疏导致的model dropping 算是开conditional GAN之先河 作用到generator局部的损失函数.(如果一个句子只有最后一个字生成...
这个模型不一样的地方在于,将原来的Discriminator从二分类模型变为一个排序模型,也就是一个Leaning to Rank的问题.所以模型的两个神经网络为:一个generator和一个ranker. ranker 整体的架构和Seq...
特点 论文想法类似于SeqGAN,有下面几点不同: 作用与对话生成,而不是单个序列 引入一个base model,评估状态价值 \(b(\{x,y\})\) , 这个模型是当前策略 \(\pi\) 下,D的输出作为reward通过强化学习得...
SeqGAN 如果生成器G生成的结果是离散的序列,例如文本序列,就会到D的梯度无法有效回传; 本文将文本生放到强化学习的框架里面,将每一个字符生成看做是action执行,一个完整的序列生成看做是一个episode,D可以看做是状态价值函数....
AlphaGo 采用蒙特卡罗搜索树作为搜索框架 两个网络,一个价值网络表示状态价值;一个策略网络(两个网络都是CNN),用来决定每一个状态的action分布. 先用专家棋谱学习策略网络,然后self-play更新这个网络. 专家棋谱学出来的...
引入 状态价值预估这一类方法有没有缺点? 是不是存在一种别的建模方式,在解决特定问题的时候反而更加高效? 这一章介绍的policy gradient就是这类方法, 在解决一些问题上,直接对策略建模会更加有效. 具体为: 期望通过更新其中的参...
目标是得到一个q函数,如下: 梯度更新公式为: Sarsa 需要注意的是,对t时刻的状态 \(S_t\) ,可以选择的action是连续的(或者是离散的,但是非常多),Sarsa算法可以表示为: n-step Semi-gradient S...
到第九章,终于到了第二部分"Part II: Approximate Solution Methods " In the second part of the book we extend the tabular methods prese...
这一章貌似比较难啃...并且很重要 Models and Planning 这里model指的是环境的模型,环境模型有两大类: 输入当前状态和行为,输出下一个所有可能状态和奖励的分布 输入当前状态和行为,输出下一个状态和奖励 Plannin...