欢迎光临 x-algo
关注算法在工业界应用
Hi, 这是一个关注大数据算法在工业界应用的网站

Phrase Clustering for Discriminative Learning 原理介绍

很有启发性的论文,论文的内容和现在很多方法的思想惊人的相似,文章发表时间是2009年,四年之后word2vec模型被提出。本文提出通过上下文信息对phrase进行聚类后作为有监督的任务的特征,很好的提升了模型的性能。论文链接戳我

Phrase聚类

既然要对phrase进行聚类,首先要明确如何生成(定义)phrase。文中的phrase是搜索query的片段,通过设置频次阈值筛选出来了7000亿个。

接下来就是确定如何得到每一个phrase特征向量,文章中是通过计算统计量生成每个phrase的特征。具体为:

  1. 确定当前phrase的窗口内的词
  2. 统计窗口内的每一个词和phrase之间的PMI
  3. 通过距离函数(例如cos)衡量两个phrase的距离

PMI的定义为:

\(PMI(phrase,f)=log(\frac{P(phrase,f)}{P(phrase)P(f)})\)

其中 \(f\) 为某一个词。

通过聚类可以对每一个phrase打上类别的id,这个id可以作为后面序列标注任务的特征

序列标注

下图为具体的例子,Jimi Hendrix聚类编号为183。

特征生成方式

使用这种方式生成特征和直接使用word2vec训练结果初始化神经网络进行序列标注可能效果差不多。工程上直接使用lstm crf会简单很多。

未经允许不得转载:大数据算法 » Phrase Clustering for Discriminative Learning 原理介绍

评论 抢沙发

*

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

关注大数据算法在工业界应用

本站的GitHub关于本站