欢迎光临 x-algo
关注算法在工业界应用
Hi, 这是一个关注大数据算法在工业界应用的网站

一篇关键词相关的综述

Automatic Keyphrase Extraction: A Survey of the State of the Art

为什么要进行关键词提取?

  • 信息检索使用
  • 摘要提取
  • 文本分类
  • 观点挖掘
  • 文档索引(document indexing

影响keyphrase提取难度的几个因素

  •  文章长度,随着文章长度的增加,keyphrase的提取难度会增加,因为随着文章的增加,候选的keyphrase也增加,想要得到可以准确刻画文章核心思想的keyphrase就更加难找了;摘要、邮件、新闻文章摘要是比较容易的,因为他们一般比较短;学术论文、技术报告、会议记录会比较困难,因为他们一般较长
  • 文章结构信息,如果文章有明确的结构信息,例如titlesummaryabstractintroduction这些信息,是有利于进行keyphrase提取的;博客、论坛、评论类型的内容,往往没有结构化的信息
  • 主题改变,对于聊天、会议这类内容,他们的主题会在多个topic之间变化;解决方法是使用topic detection,对于会议来说,会在会议的开始会有topic list的信息,这个线索在聊天的文本中就不存在了
  • 主题相关,对于学术文章、新闻文章来说,一般只有一个主题或者几个相关的主题,那么keyphrase之间往往是有某种相关性的;而对于邮件、聊天、非正式会议、个人博客,里面包含的主题可能都不相关

keyphrase提取的一般方法

  •  提取wordsphrases候选列表,使用启发式的方法(规则)
  •  使用停用词表进行过滤
  •  使用词性进行过滤
  • ngram使用外部词表进行过滤(wikititle
  •  使用patternngram进行过滤(比如名词开头的词)
  •  使用有监督的或者无监督的方式进行筛选
  •  有监督的方法

有监督的方法

  •  一般作为一个二分类的任务进行建模,模型的目标是是输出一个个0-1的数值,表示当前候选是keyphrase的概率,朴素贝叶斯、决策树、最大熵、mlpsvm等都是候选可用模型;
  •  使用二分类进行建模有明显的缺陷,因为只有正负样本,标注数据非01keyphrase是用来表意文档的,天然不同的keyphrase之间有权重的差异;使用二分类也将keyphrase之间的关系看做相互独立
  •  pariwise的方法将keyphrase的提取看做LTR的问题,试验效果明显优于传统的二分类

有监督特征设计

  •  Within-collection特征,就是基于现有的doc数据的特征
  • 统计特征,例如:tf*idf、第一次出现的位置比例、phrase可以作为keyphrase的概率
  • 结构特征,titlesummaryabstractintroduction
  • 句法特征,词性、后缀信息、
  • 外部资源的特征
  • 维基百科的信息,phrase是一个超链接(词条)的频次
  • phrase出现在querylog中的统计信息
  •  phrase相关性得分(在候选的Lkeyphrase中选择topK个和剩余的计算PMI计算相关性)

无监督的方法

  • tf-idftextrank
  •  KeyCluster,通过语义相似进行聚类,然后从类中选择中心的一个座位keyphrase;达到覆盖全部文章的全部topic;聚类方式通过Wiki数据和共现统计;方法的缺点是没有考虑多个topic之间的权重(重要性)
  • Topical PageRank,先执行LDA,然后每一个topic下执行TextRank,然后将多个TextRank的结果合并到一起;TopicalPageRank效果要好于KeyCluster
  • 联合学习,将keyphrase提取和摘要提取联合起来;前提假设是:重要的句子周围的句子也重要,重要的词所在的句子也重要,重要的词周围词也重要(TextRank);就有几种类型的边,分别为(句子x,句子y),(句子x,词x),(词x,词y);句子之间边的权重是句子之间的相似度,句子和词之间的边权重是词在句子之中的重要性;词和词之间边的权重就是共现或者外部知识;构造完成图之后就开始进行学习,这个模型的缺点和textrank的缺点一样,就是不能够cover所有的topic;解决办法是通过类似KeyCluster的方式先对词级别处理一下;
  •  语言模型,在两个方面确定衡量一个phrase是不是可以作为keyphrase,一个是可以作为phrase的概率,第二个是信息量;如果这两方面都很高,就认为大概率是一个keyphrase;这两个score通过语言模型进行预测;

未经允许不得转载:大数据算法 » 一篇关键词相关的综述

评论 抢沙发

*

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

关注大数据算法在工业界应用

本站的GitHub关于本站