自然语言处理综述
https://zhuanlan.zhihu.com/p/40760991
1. 任务概览
- 机器翻译
- 自动文摘
- 信息检索
- 文档分类
- 问答系统
- 信息过滤
- 信息抽取
- 文本挖掘
- 舆情分析
- 文字编辑和自动校对
- 作文自动评分
- OCR
- 语音识别
- 语音合成
- 说话人识别
2. 自然语言处理的几个层次
- 形态学:研究词的内部结构,包括屈折变化和构词法两个部分。
- 语法学:研究句子结构成分之间的相互关系和组成句子序列的规则。
- 语义学:语言的各级单位:词素,词,词组,句子,句子群,整段整篇的话语和文章的意义。
- 语用学:从使用者的角度研究语言。
3. 自然语言处理中的困难
两大基本问题: 歧义消解问题(词,句) 以及 未知语言现象问题(未知词汇,未知结构)。
4. 基本方法
- 经验主义:主张通过建立特定的数学模型来学习复杂的,广泛的语言结构,然后利用统计学,模式识别和机器学习等方法来训练模型参数。
- 理性主义:主张建立符号处理系统,由人工整理和编写初始的语言知识表示体系(规则)来构造相应的推理程序。最常见的如词法解析器,句法分析器。