欢迎光临 x-algo
关注算法在工业界应用
Hi, 这是一个关注大数据算法在工业界应用的网站

A Two-stage Bootstrapping Algorithm for Relation Extraction

简介

论文主要介绍了一个特定关系提取的两级自扩展算法。在常规的一级自扩展算法之上添加一层pattern query查找nominal,可以解决关系subtype的局限性问题(即可提取更多subtype的关系,文章主要讲EMP-ORG关系的提取)。算法支持有条件的领域迁移。

算法框架

re_0_0

算法

1. 从给定种子开始(Person and organization pairs)

2. 查找共现

3. 提取包含种子的关系模式(四元组<order, tag1, middle, tag2>)

4. 评估关系模式

a. 评估关系模式并选择高置信度的模式(模式评估)

b. 选择informative关系模式,并且将其转化为"关系查询"(PERSON, former head of ORG -> PERSON, former *NN* of ORG,简单来说就是通配查找)

5. 使用"关系查询"查找新的关系词

6. 评估新的关系词,选择置信度高的词实例化"关系查询"为关系模式(PERSON, former *NN* of ORG -> PERSON, former editor of ORG)

7. 使用4.a及6步得到的模式返回第一级查找新的name pair,即种子

8. 评估新获取到的pair(种子评估),将置信度高的pair加入种子集合

9. 如果没有到达结束条件,则跳转到2

  • 模式评估:模式与标注语料中的pair匹配数为P.positive,未匹配上的pair计为P.negative

re_0_1

  • 种子评估:与其相关的pattern置信度相关

re_0_2

  • informative关系模式评估:

(1) 模式middle部分使用HMM POS tagger,选择包含NN或者NNS的模式

(2) 找到最右侧noun为head

(3) 判定head左侧modifier是否为冠词或者其他限定词(these),是则去掉pattern

(4) 计算pattern BMI(Bigram Mutual Information)(head与其直接修饰词的BMI),或者Dice

re_0_3re_0_4

算法评估

上述算法第6步评估完关系词之后,进行了一个实验说明算法的有效性。

大致思想是使用SVM的方法先训练了一个有监督的模型,然后利用MI或者Dice产生的nominal list添加新特征,观察效果是否能有提升。以下为效果图。

re_0_5

re_0_6

论文:A Two-stage Bootstrapping Algorithm for Relation Extraction

 

 

 

 

未经允许不得转载:大数据算法 » A Two-stage Bootstrapping Algorithm for Relation Extraction

评论 抢沙发

*

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

关注大数据算法在工业界应用

本站的GitHub关于本站