Earyant的技术博客

欢迎来到Earyant的技术博客,在这里我将与你分享新技术。

4.信息论

基本知识

  • 基本思想: 一件不太可能的事情发生, 要比一件非常可能的事情发生提供更多的信息

  • 性质:

    • 非常可能发生的事情信息量较少,并且极端情况下,一定能够发生的事件应该没有信息量
    • 比较不可能发生的事件具有更大的信息量
    • 独立事件应具有增量的信息。例如,投掷的硬币两次正面朝上传递的信息量,应该是投掷一次硬币正面朝上的信息量的两倍。

1. 自信息 ,信息熵,互信息

自信息 - self-information

如果说概率P是对确定性的度量,信息是对不确定性的度量,这两者是相对的, 事件发生的概率越大,那么事件的信息量就越小, 事件的概率与事件的信息量之间成反比。

举例来说:如果事件A发生的概率比事件B发生的概率要大,那么我们就说事件B的信息量要比事件A的信息量要大

信息量能够量化以上性质,定义一个事件x的自信息为:

当该对数的底数为自然对数 e 时,单位为奈特(nats);当以 2 为底数时,单位为比特(bit)或香农(shannons).

信息熵 — information-entropy

信息熵是对平均不确定性的度量,本质上是所有事件的信息量的期望, 对整个概率分布中的不确定性总量进行量化:

信息论中,记 0log0 = 0

  • 当且仅当某个 $P(X_i)=1$,其余的都等于0时, H(X)= 0。
  • 当且仅当某个$P(X_i)=1/n,i=1, 2,……, n$时,$H(X)$ 有极大值 log n。

熵可以表示样本集合的不确定性,熵越大,样本的不确定性就越大

互信息

互信息 $I(X,Y)$ 取值为非负。当X、Y相互独立时,$I(X,Y)$ 最小为0。

2. 相对熵(KL散度) 与 交叉熵

1. 相对熵 — KL 散度 : Kullback-Leibler divergence

如果对于同一个随机变量 x 有两个单独的概率分布 P(x) 和 Q(x),我们可以使用 KL 散度来衡量这两个分布的差异

  • 定义: P 对 Q 的KL散度为:
  • 含义:在离散型变量的情况下, KL 散度衡量的是:当我们使用一种被设计成能够使得概率分布 Q 产生的消息的长度最小的编码,发送包含由概率分布 P 产生的符号的消息时,所需要的额外信息量。

  • 性质:

    • 非负: KL 散度为 0 当且仅当P 和 Q 在离散型变量的情况下是相同的分布,或者在连续型变量的情况下是“几乎处处”相同的.
    • 不对称:$D_p(q) != D_q(p)$

2. 交叉熵 - cross entropy

  • 设 $p(x), q(x)$ 为 $X$ 中取值的两个概率分布,则 $p$ 对 $q$ 的交叉熵为:

在一定程度上,相对熵可以度量两个随机变量的“距离”。

3. 交叉熵与KL散度的关系

  • 针对 Q 最小化交叉熵等价于最小化 P 对 Q 的 KL 散度,因为 Q 并不参与被省略的那一项。

  • 最大似然估计中,最小化 KL 散度其实就是在最小化分布之间的交叉熵。

3. 联合熵与条件熵

  • 联合熵 $H(X, Y)$:两个随机变量X,Y的联合分布。

  • 条件熵 $H(Y|X) $:在随机变量X发生的前提下,随机变量Y发生所新带来的熵定义为Y的条件熵,用来衡量在已知随机变量X的条件下随机变量Y的不确定性。

联合熵与条件熵的推导过程如下:

4. 互信息

  • $I(X, Y)$ :两个随机变量X,Y的互信息 为X,Y的联合分布各自独立分布乘积相对熵

推导如下:

https://www.nowcoder.com/ta/review-ml/review?page=59

欢迎关注我的其它发布渠道