文本纠错
https://zhuanlan.zhihu.com/p/82807092
https://mp.weixin.qq.com/s/JyXN9eukS-5XKvcJORTobg
1. 百度开放平台纠错
https://ai.baidu.com/tech/nlp_apply/text_corrector
2. 给予深度学习的中文纠错
- kenlm:kenlm统计语言模型工具
- rnn_lm:TensorFlow、PaddlePaddle均有实现栈式双向LSTM的语言模型
- rnn_attention模型:参考Stanford University的nlc模型,该模型是参加2014英文文本纠错比赛并取得第一名的方法
- rnn_crf模型:参考阿里巴巴2016参赛中文语法纠错比赛CGED2018并取得第一名的方法
- seq2seq_attention模型:在seq2seq模型加上attention机制,对于长文本效果更好,模型更容易收敛,但容易过拟合
- transformer模型:全attention的结构代替了lstm用于解决sequence to sequence问题,语义特征提取效果更好
- bert模型:中文fine-tuned模型,使用MASK特征纠正错字
- conv_seq2seq模型:基于Facebook出品的fairseq,北京语言大学团队改进ConvS2S模型用于中文纠错,在NLPCC-2018的中文语法纠错比赛中,是唯一使用单模型并取得第三名的成绩
基于深度学习(如bert模型)进行纠正,对于句子级别的纠错有效。但是对于单词纠错,效果较差。
3. 其他纠错方案
1.工具利用的是pycorrector,对同音字纠正,效果较好。同形不行
2.基于编辑距离来纠正,对于同音字纠正,效果较好。同形不行
3.基于字形编码对于同形字进行纠正,需要有详细的字形编码库.建立近形字库。
4.基于通用词库来完成纠正。目前基于已有的词库(800多万个词条),进行纠正。效果还行,但是不一定能覆盖专有名称,特别是商品名称。
5.利用商品名称库来完成纠正。对于购物小票,效果较好,其他票据目前效果不好。
6.金额纠正,将金额进行加总比对,以此对金额进行纠错。