信息论

发布时间 2023-05-30 10:34:52作者: dctwan

信息论

是概率论的延申,在机器学习领域,用于

  • 构造目标函数
  • 对算法进行理论分析和证明

1.熵

熵衡量了一个概率分布的随机性程度,或者说它包含的信息量的大小。

随机变量X取值为x的概率为p(x),p(x)很小,而这个事件又发生了,则包含的信息量大。用h(x)表示信息量的大小,则h(x)应为p(x)的单调减函数,现在想要尝试找出h(x)和p(x)的函数关系,尝试根据如下例子找出二者之间的关系。

随机变量X和Y相互独立,取得x和y的概率分别为p(x)和p(y),提供的信息量分别为h(x)和h(y),考虑X=x和Y=y同时发生的情况

  1. p(x,y) = p(x) * p(y)

    由于X,Y相互独立,则二者同时发生的概率应该为二者分别发生的概率之积

  2. h(x,y) = h(x) + h(y)

    由于X,Y相互独立,则二者同时发生的信息量应该为二者分别发生的信息量之和

  3. p(x,y) 和 h(x,y) 之间存在某种函数关系

    即:p(x) * p(y) 和 h(x) + h(y) 之间存在这种函数关系

    又:p(x) 和 h(x) 之间,p(y) 和 h(y) 之间同样存在这种函数关系

    考虑到要在乘积与和之间建立一座桥梁,因此应该是对数关系

信息量定义为

\[h(x)=-lnp(x) \]

\(y=-ln(x)\)的函数图像如下

image-20230526084310100
  • 当p(x)越小时(\(p(x)\geq0\)),对应的h(x)越大
  • 当p(x)越大时(\(p(x)\leq1\)),对应的h(x)越小
  • h(x)总为正值

熵 := 信息量的数学期望

离散型随机变量的熵

\[H(p)=-\sum_{i=1}^{n}p_ilnp_i,\qquad p_i=p(x_i) \]

eg1:

image-20230526085331838

eg2:

image-20230526085345132

eg1分布的熵大于eg2分布的熵,因为eg1为均匀分布,随机性更强

连续型随机变量的熵,概率密度函数为p(x)

\[H(p)=-\int_{-\infty}^{+\infty}p(x)lnp(x)dx \]

2.交叉熵

交叉熵定义在两个概率分布之上,反映了他们之间的差异程度,常用于设计损失函数

离散型随机变量

image-20230526091324905

eg1:

image-20230526091402493

eg2:

image-20230526091416225

连续型随机变量

image-20230526091548364

3.KL散度

KL散度同样定义在两个概率分布之上,反映了他们之间的差异程度,通常用于对算法进行理论分析

离散型随机变量

image-20230526091951795

eg1:

image-20230526092028889 image-20230526092046773

eg2:

image-20230526092126341

连续型随机变量

image-20230526092544830

KL散度和交叉熵的关系

image-20230526092621791

KL散度是p,q交叉熵和p的熵之差,在机器学习中,通常以分布p为目标,拟合出分布q来近似p

待补充...