欢迎光临 x-algo
关注算法在工业界应用
Hi, 这是一个关注大数据算法在工业界应用的网站

标签:CRF

NLP

半监督CRF

leihao阅读(2248)评论(1)

论文点击此处 分词的任务中,得到标注的语料是非常昂贵的;在互联网的上,有很多方式可以获得一个句子中部分,例如wiki中的书名号和超链接.中文分词可以看做一个序列标注的任务. 原理 图片来源:此处 原理其实很简单,就是修改一下目标函数,对不知...

NLP

CRF++依存句法分析

leihao阅读(4554)评论(0)

语料是清华大学的句法标注语料,包括训练集(train.conll)和开发集合文件(dev.conll),根据模板文件生成了将近两千万个特征,使用CRF++训练,开了40个并发进程,训练了7个小时左右。语料、程序、模型等文件下载:戳我下载【C...

NLP

CRF++地名实体识别(特征为词性和词)

leihao阅读(8088)评论(12)

类似使用CRF实现分词和词性标注,地域识别也是需要生成相应的tag进行标注。这里使用的语料库是1998年1月人民日报语料集。最终学习出来的模型,对复杂的地名识别准确率(F值)非常低,推测是预料中对地名的标注多处是前后矛盾。例如  [华南/n...

NLP

CRF++词性标注

leihao阅读(8218)评论(20)

训练和测试的语料都是人民日报98年标注语料,训练和测试比例是10:1,直接通过CRF++标注词性的准确率:0.933882。特征有一千多万个,训练时间比较长。机器cpu是48核,通过crf++,指定并线数量 -p为40,训练了大概七个小时才...

NLP

CRF++中文分词

leihao阅读(8790)评论(22)

使用人民日报的语料,为了方便切割,将其中的\t替换为了空格,语料直接下载:人民日报语料。生成的crf测试和训练数据:点击-训练和测试数据下载(6tag版本) 对于语料有嵌套的标注,例如:[中央/n 电视台/n]nt,为了处理方便,只考虑最细...

模型

条件随机场(CRF)理论及应用

leihao阅读(6915)评论(0)

条件随机场(CRF)是给定一组输入随机变量条件下,求另一组输出随机变量的条件概率分布的模型;其特点是假设输出随机变量构成马尔科夫随机场(后面解释),条件随机场可以用于不同的预测问题,对自然语言处理过程主要是线性(linear chain)条...

关注大数据算法在工业界应用

本站的GitHub关于本站