文本数据预处理 发表于 2022-03-12 阅读次数: 本文字数: 146 阅读时长 ≈ 1 分钟 文本数据预处理 1. OOV - out of vocabulary words 2. 数据增强 文本数据预处理 1. OOV - out of vocabulary words 采用细粒度的表示 + 粗粒度的表示融合:彻底消灭所有 OOV Wordpiece Model: 无法彻底解决OOV <UNK>处理 扩大词表 2. 数据增强 打赏 欢迎关注我的其它发布渠道 Zhihu Github RSS