信息熵交叉熵交叉熵误差条件熵联合熵互信息-526互联

信息熵

熵定义为信息的期望，某个待分类事物可以划分为多个类别，其中类别 $x_{i}$ 的信息为( $p(x_{i})$ 为 $x_{i}$ 的概率)：

$l(x_{i})=-log_{2}p(x_{i})$

熵为所有类别的信息期望值：
$H=-\sum _{i=1}^{n}p(x_{i})log_{2}p(x_{i})$

交叉熵

交叉熵误差：

$E=-\sum _{i=1}^{n}t_{i}logy_{i}$

$t=(t_{1},t_{2},...,t_{n})$ 为实际的分类结果， $y={y_{1},y_{2},...,y_{n}}$ 为预测的结果，（ $0\leq y_{i}\leq 1$ 并且 $\sum _{i=1}^{n}y_{i}=1$ ）

交叉熵误差

它有三个很好的性质：

1. 它可以真实的反应出真实分类结果和预测结果的误差

预测结果和真实分类结果越接近，误差越接近 $0$ ，即误差越小

2. 交叉熵误差函数和softmax（神经网络用到的输出函数）和sigmoid函数（logistic回归用到的函数）的复合函数是凸函数，即存在全局最优解

凸函数的充要条件是：如果二阶导数存在，二阶到大于 $0$

3. 在用梯度下降发求解最优解时，需要用到一阶导数，从上面可以看到一阶导数：

$E^{'}_{x_i}=y_i-t_i$

很简洁，可以简化整个求解过程。

互信息：

https://www.cnblogs.com/emanlee/p/12492561.html

https://blog.csdn.net/weixin_42258608/article/details/88059252

=============================

1、信息熵H(X)
定义：一个离散随机变量X的熵H(X)定义为

2、联合熵H(X,Y)
定义：对于服从联合分布为p(x,y)的一对离散随机变量(X,Y)，其联合熵H(X,Y) (joint entropy)定义为：

3、互信息I(X,Y)
定义：考虑两个随机变量X和Y，他们的联合概率密度函数为p(x,y)，其边际概率密度函数分别为p(x)和p(y)。互信息I(X;Y)为联合分布p(x,y)和p(x)p(y)之间的相对熵，即：

4、条件熵H(X|Y)
定义：若（X，Y)~p(x,y)，条件熵(Conditional entropy) H(Y|X)定义为：

————————————————
链接：https://blog.csdn.net/tangxianyu/article/details/105759989

信息熵 交叉熵 交叉熵误差 条件熵 联合熵 互信息