Earyant的技术博客

欢迎来到Earyant的技术博客,在这里我将与你分享新技术。

SIFRank

SIFRank: A New Baseline for Unsupervised Keyphrase Extraction Based on Pre-trained Language Model

Abstract

Model Overview

Overall Structure

  • 首先先分词,并标注词性
  • 采用 NP-chunker(用正则编写) 提取句子中的 NPs
  • 用预训练语言模型获取每个 token 的表示
  • 分别将document 与 NPs 表示成向量
  • 计算NPs embedding 与 document的 cos距离, 选择topk

SIF

通过SIF 来分别获得 NPs 与 document 的 embedding 。

引入了两个平滑项,来解释(1)有些词是在上下文之外出现(2)某些高频词如『the』是没有语境限制的:

  • $\alpha f_w$:$\alpha$ 是标量, $p(w)$ 是整个语料库中单词 $w$ 的词频。

SIFRank

  • document d 的embedding 为$v_d$
  • 候选NP的embedding 为 $v_{NP}$

欢迎关注我的其它发布渠道