Earyant的技术博客

欢迎来到Earyant的技术博客,在这里我将与你分享新技术。

文本数据预处理

文本数据预处理


1. OOV - out of vocabulary words

  • 采用细粒度的表示 + 粗粒度的表示融合:彻底消灭所有 OOV
  • Wordpiece Model: 无法彻底解决OOV
  • <UNK>处理
  • 扩大词表

2. 数据增强

欢迎关注我的其它发布渠道