欢迎光临 x-algo
关注算法在工业界应用
Hi, 这是一个关注大数据算法在工业界应用的网站

NLP

Chinese Poetry Generation with Recurrent Neural Networks

leihao阅读(98)评论(0)

最近研究一下文本生成,记录一下 整体结构 本文结构算是比较复杂的,结构如下图: 具体为: 选择关键词列表 根据关键词得到相似的phrase集合 根据phrase进行组合,得到很多候选诗句 从候选里面选择一个得分最高的,作为第一句 根据以前的...

Adversarial Learning for Neural Dialogue Generation

leihao阅读(164)评论(0)

特点 论文想法类似于SeqGAN,有下面几点不同: 作用与对话生成,而不是单个序列 引入一个base model,评估状态价值 \(b(\{x,y\})\) , 这个模型是当前策略 \(\pi\) 下,D的输出作为reward通过强化学习得...

SeqGAN

leihao阅读(152)评论(0)

SeqGAN 如果生成器G生成的结果是离散的序列,例如文本序列,就会到D的梯度无法有效回传; 本文将文本生放到强化学习的框架里面,将每一个字符生成看做是action执行,一个完整的序列生成看做是一个episode,D可以看做是状态价值函数....

半监督CRF

leihao阅读(2247)评论(1)

论文点击此处 分词的任务中,得到标注的语料是非常昂贵的;在互联网的上,有很多方式可以获得一个句子中部分,例如wiki中的书名号和超链接.中文分词可以看做一个序列标注的任务. 原理 图片来源:此处 原理其实很简单,就是修改一下目标函数,对不知...

Scalable Topical Phrase Mining from Text Corpora 原理介绍

leihao阅读(2404)评论(0)

原文地址:请戳我 传统的主题模型中,都是在词的粒度进行建模,一个词会有多个主题(例如LDA)。其实在给定的语境之下,一个词的主题基本是确定的。对于一个phrase,可以认为其内部的word的主题是相同的。和传统的LDA相比,就是对哪些词属于...

Phrase Clustering for Discriminative Learning 原理介绍

leihao阅读(1652)评论(0)

很有启发性的论文,论文的内容和现在很多方法的思想惊人的相似,文章发表时间是2009年,四年之后word2vec模型被提出。本文提出通过上下文信息对phrase进行聚类后作为有监督的任务的特征,很好的提升了模型的性能。论文链接戳我。 Phra...

Grammar as a Foreign Language

leihao阅读(1558)评论(0)

原始论文:《Grammar as a Foreign Language》 如论文的标题,论文特别的地方是将「句法分析」这件事变为一个「翻译」问题。 不了解RNN和LSTM的可以先看RNN(Recurrent Neural Networks)...

LSTM+CRF介绍

liming阅读(14377)评论(0)

LSTM和CRF要解决问题的:序列标注问题(中文分词、词性识别、命名实体识别、机器翻译等) 本文先介绍LSTM的基本结构,再介绍LSTM与CRF结合的方法(CRF的具体算法介绍不包括在本文中)。 LSTM是RNN的一种特殊形式,首先看一下R...

从LSTM到Seq2Seq

chendajun阅读(13327)评论(0)

LSTM(Long Short Term Memory) 由于传统的RNN在进行几次链式法则求导后梯度会指数级缩小(如图),导致传播几层后出现梯度消失,无法处理“长期依赖”问题。国外学者刻意设计了一种RNN的变体来克服这个问题,即LSTM。...

关注大数据算法在工业界应用

本站的GitHub关于本站