信息熵 交叉熵 交叉熵误差 条件熵 联合熵 互信息

发布时间 2023-10-10 20:07:11作者: emanlee

信息熵

熵定义为信息的期望,某个待分类事物可以划分为多个类别,其中类别x_{i}的信息为(p(x_{i})x_{i}的概率):

l(x_{i})=-log_{2}p(x_{i})

熵为所有类别的信息期望值:
H=-\sum _{i=1}^{n}p(x_{i})log_{2}p(x_{i})

 

交叉熵

交叉熵误差:

E=-\sum _{i=1}^{n}t_{i}logy_{i}

t=(t_{1},t_{2},...,t_{n})为实际的分类结果,y={y_{1},y_{2},...,y_{n}} 为预测的结果,(0\leq y_{i}\leq 1 并且 \sum _{i=1}^{n}y_{i}=1  )

 

 

交叉熵误差

它有三个很好的性质:

1. 它可以真实的反应出真实分类结果和预测结果的误差

预测结果和真实分类结果越接近,误差越接近0, 即误差越小

 

2. 交叉熵误差函数和softmax(神经网络用到的输出函数)和sigmoid函数(logistic回归用到的函数)的复合函数是凸函数,即存在全局最优解

凸函数的充要条件是:如果二阶导数存在,二阶到大于0

 

3. 在用梯度下降发求解最优解时,需要用到一阶导数,从上面可以看到一阶导数:

 E^{'}_{x_i}=y_i-t_i

很简洁,可以简化整个求解过程。

 

互信息:

https://www.cnblogs.com/emanlee/p/12492561.html

https://blog.csdn.net/weixin_42258608/article/details/88059252

 

=============================

1、信息熵H(X)
定义:一个离散随机变量X的熵H(X)定义为

 2、联合熵H(X,Y)
定义:对于服从联合分布为p(x,y)的一对离散随机变量(X,Y),其联合熵H(X,Y) (joint entropy)定义为:

 
3、互信息I(X,Y)
定义:考虑两个随机变量X和Y,他们的联合概率密度函数为p(x,y),其边际概率密度函数分别为p(x)和p(y)。互信息I(X;Y)为联合分布p(x,y)和p(x)p(y)之间的相对熵,即:

 
4、条件熵H(X|Y)
定义:若(X,Y)~p(x,y),条件熵(Conditional entropy) H(Y|X)定义为:

 
————————————————
链接:https://blog.csdn.net/tangxianyu/article/details/105759989