欢迎光临 x-algo
关注算法在工业界应用
Hi, 这是一个关注大数据算法在工业界应用的网站

NLP

第2页

从LSTM到Seq2Seq

chendajun阅读(13501)评论(0)

LSTM(Long Short Term Memory) 由于传统的RNN在进行几次链式法则求导后梯度会指数级缩小(如图),导致传播几层后出现梯度消失,无法处理“长期依赖”问题。国外学者刻意设计了一种RNN的变体来克服这个问题,即LSTM。...

RNN(Recurrent Neural Networks)公式推导和实现

leihao阅读(14121)评论(7)

本文主要参考wildml的博客所写,所有的代码都是python实现。没有使用任何深度学习的工具,公式推导虽然枯燥,但是推导一遍之后对RNN的理解会更加的深入。看本文之前建议对传统的神经网络的基本知识已经了解,如果不了解的可以看此文:『神经网...

deep learning 中文分词介绍

leihao阅读(1922)评论(2)

介绍论文《Deep Learning for Chinese Word Segmentation and POS tagging》中的方法。 网络结构 网络中将中心词左右窗口向量作为输入,词向量第一次随机初始化,每次迭代通过反向传播更新。 ...

使用JS生成依存句法树

leihao阅读(3392)评论(4)

想要做公开或者公司内部使用的nlp平台的时候,都要面对可视化的问题,生成依存树可以说是很多nlp同学比较头疼的事情。 如果公司内部找不到合适的前端工程师支持,就只能像我一样自己搞,所以做算法的工作很容易最后变成全栈工程师。花了两天时间终于写...

word2vec在工业界的应用场景

leihao阅读(10605)评论(0)

这篇文章主要讲应用,不讲原理。 通俗的说,word2vec是一种将『词』变成向量的工具,在nlp的场景中『词』是显而易见的,但是在有些时候,什么可以看做『词』和『文档』就不那么容易了。 在社交网络中的推荐 前东家工作的时候,有一个个性化推荐...

CRF++依存句法分析

leihao阅读(4625)评论(0)

语料是清华大学的句法标注语料,包括训练集(train.conll)和开发集合文件(dev.conll),根据模板文件生成了将近两千万个特征,使用CRF++训练,开了40个并发进程,训练了7个小时左右。语料、程序、模型等文件下载:戳我下载【C...

CRF++地名实体识别(特征为词性和词)

leihao阅读(8200)评论(12)

类似使用CRF实现分词和词性标注,地域识别也是需要生成相应的tag进行标注。这里使用的语料库是1998年1月人民日报语料集。最终学习出来的模型,对复杂的地名识别准确率(F值)非常低,推测是预料中对地名的标注多处是前后矛盾。例如  [华南/n...

CRF++词性标注

leihao阅读(8310)评论(20)

训练和测试的语料都是人民日报98年标注语料,训练和测试比例是10:1,直接通过CRF++标注词性的准确率:0.933882。特征有一千多万个,训练时间比较长。机器cpu是48核,通过crf++,指定并线数量 -p为40,训练了大概七个小时才...

CRF++中文分词

leihao阅读(8868)评论(22)

使用人民日报的语料,为了方便切割,将其中的\t替换为了空格,语料直接下载:人民日报语料。生成的crf测试和训练数据:点击-训练和测试数据下载(6tag版本) 对于语料有嵌套的标注,例如:[中央/n 电视台/n]nt,为了处理方便,只考虑最细...

关注大数据算法在工业界应用

本站的GitHub关于本站