文本纠错

1. 百度开放平台纠错

kenlm：kenlm统计语言模型工具
rnn_lm：TensorFlow、PaddlePaddle均有实现栈式双向LSTM的语言模型
rnn_attention模型：参考Stanford University的nlc模型，该模型是参加2014英文文本纠错比赛并取得第一名的方法
rnn_crf模型：参考阿里巴巴2016参赛中文语法纠错比赛CGED2018并取得第一名的方法
seq2seq_attention模型：在seq2seq模型加上attention机制，对于长文本效果更好，模型更容易收敛，但容易过拟合
transformer模型：全attention的结构代替了lstm用于解决sequence to sequence问题，语义特征提取效果更好
bert模型：中文fine-tuned模型，使用MASK特征纠正错字
conv_seq2seq模型：基于Facebook出品的fairseq，北京语言大学团队改进ConvS2S模型用于中文纠错，在NLPCC-2018的中文语法纠错比赛中，是唯一使用单模型并取得第三名的成绩

基于深度学习（如bert模型）进行纠正，对于句子级别的纠错有效。但是对于单词纠错，效果较差。

1.工具利用的是pycorrector，对同音字纠正，效果较好。同形不行

2.基于编辑距离来纠正，对于同音字纠正，效果较好。同形不行

3.基于字形编码对于同形字进行纠正，需要有详细的字形编码库.建立近形字库。

4.基于通用词库来完成纠正。目前基于已有的词库（800多万个词条），进行纠正。效果还行，但是不一定能覆盖专有名称，特别是商品名称。

5.利用商品名称库来完成纠正。对于购物小票，效果较好，其他票据目前效果不好。

6.金额纠正，将金额进行加总比对，以此对金额进行纠错。