SIFRank: A New Baseline for Unsupervised Keyphrase Extraction Based on Pre-trained Language Model
Abstract
Model Overview
Overall Structure
- 首先先分词,并标注词性
- 采用 NP-chunker(用正则编写) 提取句子中的 NPs
- 用预训练语言模型获取每个 token 的表示
- 分别将document 与 NPs 表示成向量
- 计算NPs embedding 与 document的 cos距离, 选择topk
SIF
通过SIF 来分别获得 NPs 与 document 的 embedding 。
引入了两个平滑项,来解释(1)有些词是在上下文之外出现(2)某些高频词如『the』是没有语境限制的:
- $\alpha f_w$:$\alpha$ 是标量, $p(w)$ 是整个语料库中单词 $w$ 的词频。
SIFRank
- document d 的embedding 为$v_d$
- 候选NP的embedding 为 $v_{NP}$