欢迎光临 x-algo
关注算法在工业界应用
Hi, 这是一个关注大数据算法在工业界应用的网站

2016年02月的文章

NLP

CRF++地名实体识别(特征为词性和词)

leihao阅读(9719)评论(12)

类似使用CRF实现分词和词性标注,地域识别也是需要生成相应的tag进行标注。这里使用的语料库是1998年1月人民日报语料集。最终学习出来的模型,对复杂的地名识别准确率(F值)非常低,推测是预料中对地名的标注多处是前后矛盾。例如  [华南/n...

NLP

CRF++词性标注

leihao阅读(9725)评论(20)

训练和测试的语料都是人民日报98年标注语料,训练和测试比例是10:1,直接通过CRF++标注词性的准确率:0.933882。特征有一千多万个,训练时间比较长。机器cpu是48核,通过crf++,指定并线数量 -p为40,训练了大概七个小时才...

NLP

CRF++中文分词

leihao阅读(10106)评论(22)

使用人民日报的语料,为了方便切割,将其中的\t替换为了空格,语料直接下载:人民日报语料。生成的crf测试和训练数据:点击-训练和测试数据下载(6tag版本) 对于语料有嵌套的标注,例如:[中央/n 电视台/n]nt,为了处理方便,只考虑最细...

模型

HMM(hidden Markov model)隐马尔科夫模型

leihao阅读(2793)评论(0)

隐马尔科夫模型(后面简称隐马)适用于标注问题的统计学习模型,属于生成模型,隐马的三个基本问题:概率计算问题、算法学习问题、预测问题。隐马在分词、词性标注、语音识别等领域有这广泛的应用。 未经允许不得转载:大数据算法 » HMM(...

最优化

IIS(Improved Iterative Scaling)改进的迭代尺度法

leihao阅读(3815)评论(0)

改进的迭代尺度法,在很多模型求解中用到,比如最大熵、CRFs等,对模型是对数线性模型的似然都适用。这个算法的思想也很简单,通俗的理解就是通过两个不等式变形优化下界,从而迭代到收敛的算法。 未经允许不得转载:大数据算法 » IIS...

模型

条件随机场(CRF)理论及应用

leihao阅读(8889)评论(0)

条件随机场(CRF)是给定一组输入随机变量条件下,求另一组输出随机变量的条件概率分布的模型;其特点是假设输出随机变量构成马尔科夫随机场(后面解释),条件随机场可以用于不同的预测问题,对自然语言处理过程主要是线性(linear chain)条...

搜索

NOJ20-吝啬的国度

leihao阅读(873)评论(0)

时间限制:1000 ms | 内存限制:65535 KB 难度:3 描述 在一个吝啬的国度里有N个城市,这N个城市间只有N-1条路把这个N个城市连接起来。现在,Tom在第S号城市,他有张该国地图,他想知道如果自己要去参观第T号城市,必须经过...

贪心算法

NOJ12-喷水装置(二)

leihao阅读(732)评论(0)

时间限制:3000 ms | 内存限制:65535 KB 难度:4 描述 有一块草坪,横向长w,纵向长为h,在它的橫向中心线上不同位置处装有n(n<=10000)个点状的喷水装置,每个喷水装置i喷水的效果是让以它为中心半径为Ri的圆都...

贪心算法

NOJ6-喷水装置(一)

leihao阅读(903)评论(0)

时间限制:3000 ms | 内存限制:65535 KB 难度:3 描述 现有一块草坪,长为20米,宽为2米,要在横中心线上放置半径为Ri的喷水装置,每个喷水装置的效果都会让以它为中心的半径为实数Ri(0<Ri<15)的圆被湿润...

语言入门

NOJ13-Fibonacci数

leihao阅读(710)评论(0)

时间限制:3000 ms | 内存限制:65535 KB 难度:1 描述 无穷数列1,1,2,3,5,8,13,21,34,55...称为Fibonacci数列,它可以递归地定义为 F(n)=1 ...........(n=1或n=2) F...

关注大数据算法在工业界应用

本站的GitHub关于本站