Earyant的技术博客

欢迎来到Earyant的技术博客,在这里我将与你分享新技术。

基本单元-NLP

MLP


deep-learning

感知机

1. 万能近似定理

一个前馈神经网络如果具有至少一个非线性输出层,那么只要给予网络足够数量的隐藏单元,它就可以以任意的精度来近似任何从一个有限维空间到另一个有限维空间的函数。

万能近似定理表明一个单层的网络就足以表达任意函数,但是该层的维数可能非常大,且几乎没有泛化能力;此时,使用更深的模型能够减少所需的单元数,同时增强泛化能力(减少泛化误差)。参数数量相同的情况下,浅层网络比深层网络更容易过拟合。

2.在深度神经网络中,非线性单元,放弃了训练问题的凸性,其意义何在?

放弃训练问题的凸性,简单来说,就是放弃寻求问题的最优解。

非线性单元的加入,使训练问题不再是一个凸优化问题。这意味着神经网络很难得到最优解,即使一个只有两层和三个节点的简单神经网络,其训练优化问题仍然是 NP-hard 问题 (Blum & Rivest, 1993).

但即使如此,使用神经网络也是利大于弊的:

  • 人类设计者只需要寻找正确的函数族即可,而不需要去寻找精确的函数。
  • 使用简单的梯度下降优化方法就可以高效地找到足够好的局部最小值
  • 增强了模型的学习/拟合能力,如原书中所说“ maxout 单元可以以任意精度近似任何凸函数”。至于放弃凸性后的优化问题可以在结合工程实践来不断改进。 “似乎传统的优化理论结果是残酷的,但我们可以通过工程方法数学技巧来尽量规避这些问题,例如启发式方法、增加更多的机器和使用新的硬件(如GPU)。”

3. 如何解决非线性问题

  • 手动去设计一个非线性转换
  • 核方法:其实内部本质也是非线性变换
  • 神经网络:依据激活函数来提供非线性

欢迎关注我的其它发布渠道