Earyant的技术博客

欢迎来到Earyant的技术博客,在这里我将与你分享新技术。

文本纠错

文本纠错

https://zhuanlan.zhihu.com/p/82807092

https://mp.weixin.qq.com/s/JyXN9eukS-5XKvcJORTobg

1. 百度开放平台纠错

https://ai.baidu.com/tech/nlp_apply/text_corrector

2. 给予深度学习的中文纠错

  • kenlm:kenlm统计语言模型工具
  • rnn_lm:TensorFlow、PaddlePaddle均有实现栈式双向LSTM的语言模型
  • rnn_attention模型:参考Stanford University的nlc模型,该模型是参加2014英文文本纠错比赛并取得第一名的方法
  • rnn_crf模型:参考阿里巴巴2016参赛中文语法纠错比赛CGED2018并取得第一名的方法
  • seq2seq_attention模型:在seq2seq模型加上attention机制,对于长文本效果更好,模型更容易收敛,但容易过拟合
  • transformer模型:全attention的结构代替了lstm用于解决sequence to sequence问题,语义特征提取效果更好
  • bert模型:中文fine-tuned模型,使用MASK特征纠正错字
  • conv_seq2seq模型:基于Facebook出品的fairseq,北京语言大学团队改进ConvS2S模型用于中文纠错,在NLPCC-2018的中文语法纠错比赛中,是唯一使用单模型并取得第三名的成绩

基于深度学习(如bert模型)进行纠正,对于句子级别的纠错有效。但是对于单词纠错,效果较差。

3. 其他纠错方案

1.工具利用的是pycorrector,对同音字纠正,效果较好。同形不行

2.基于编辑距离来纠正,对于同音字纠正,效果较好。同形不行

3.基于字形编码对于同形字进行纠正,需要有详细的字形编码库.建立近形字库。

4.基于通用词库来完成纠正。目前基于已有的词库(800多万个词条),进行纠正。效果还行,但是不一定能覆盖专有名称,特别是商品名称。

5.利用商品名称库来完成纠正。对于购物小票,效果较好,其他票据目前效果不好。

6.金额纠正,将金额进行加总比对,以此对金额进行纠错。

欢迎关注我的其它发布渠道