欢迎光临 x-algo
关注算法在工业界应用
Hi, 这是一个关注大数据算法在工业界应用的网站

半监督CRF

分词的任务中,得到标注的语料是非常昂贵的;在互联网的上,有很多方式可以获得一个句子中部分,例如wiki中的书名号和超链接.中文分词可以看做一个序列标注的任务.

原理

figure1

图片来源:此处

原理其实很简单,就是修改一下目标函数,对不知道的标注做合理的推测,推测出来之后,每一个可能之间是等权重的.具体可以看论文.

半监督的数据来源有两个:

  1. 词典的匹配
  2. Wikipedia中的实体(通过包括超链接,背景颜色,不同的字体等辨别)

论文

<Domain Adaptation for CRF-based Chinese Word Segmentation using Free Annotations>

<Semi-Supervised Chinese Word Segmentation Using Partial-Label Learning With Conditional Random Fields>

 

实现

半监督的CRF实现:CRFsuit.用的不舒服的地方是还需要自己提取特征,没有类似CRF++那样的模板,并且不能并发,单进程速度还可以.

 

未经允许不得转载:大数据算法 » 半监督CRF

评论 1

*

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
  1. #1

    还有这么好的网站,必须粉一个

    无限星空1年前 (2017-10-24)回复

关注大数据算法在工业界应用

本站的GitHub关于本站