费希尔信息数（Fisher Infomation）-526互联

解释1：

在深度学习中，Fisher信息矩阵（FIM）是一种可以用来表征损失函数的变化，进行二阶优化，和构建几何学习理论的工具。FIM衡量了模型输出对模型参数变化的敏感度。然而，精确的FIM要么不存在闭式解，要么计算代价太高，所以通常根据经验样本来估计。

改善Fisher的条件数意味着降低FIM估计量的方差，这会影响优化和学习算法的质量和效率。改善Fisher条件数的一种方法是使用正则化技术，例如在损失函数中添加惩罚项或者对网络层应用dropout 。另一种方法是利用深度神经网络的参数结构，设计更稳健的估计量，能够抵抗噪声和异常值。

解释2：

Fisher信息是一种衡量参数估计量精确度的方法，它是由英国统计学家Ronald Fisher提出的。在统计学中，Fisher信息通常用于计算似然函数的变化率，即对数似然函数的二阶导数。Fisher信息矩阵是一个正定矩阵，它的逆矩阵被称为协方差矩阵，可以用来计算参数估计量的标准误差。

Fisher信息的重要性在于它提供了一个量化参数估计量精确度的方法，可以用于比较不同的估计量。在实际应用中，Fisher信息也被用于设计实验，以便最大化参数估计量的精确度。

解释3：

Fisher Infomation的意义
Fisher Information 顾名思义，就是用来衡量样本数据的信息量的，通常我们有一组样本，我们在机器学习中需要估计出样本的分布，我们是利用样本所具有的信息量来估计参数的，样本中具有的信息量越多，估计的参数越准，样本的分布估计的就越接近真实分布，这里的信息量就是用Fisher Information来表示的。

什么样本信息量比较大？
我们用样本发生的概率来衡量样本本身所携带的信息量，如果样本发生的概率比较大，那么说明我们在这个样本上可以学习到的东西不多，例如机器学习中，样本一上来概率就都是1，那么参数w就基本学习不出了，相反，如果样本发生的概率比较小，就可以认为该样本携带的信息很多。
————————————————
版权声明：本文为CSDN博主「懒人元」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/lanran2/article/details/77995062

解释4：

为了解得Maximum Likelihood Estimate(MLE)，我们要让log likelihood的一阶导数得0，然后解这个方程，得到theta^{hat}_MLE

这个log likelihood的一阶导数也叫，Score function

那么Fisher Information的定义就是这个Score function的二阶矩

于是得到了Fisher Information的第一条数学意义：就是用来估计MLE的方程的方差。它的直观表述就是，随着收集的数据越来越多，这个方差由于是一个Independent sum的形式，也就变的越来越大，也就象征着得到的信息越来越多。

Fisher Information的第二条数学意义：log likelihood在参数真实值处的负二阶导数的期望。

对于这样的一个log likelihood function，它越平而宽，就代表我们对于参数估计的能力越差，它高而窄，就代表我们对于参数估计的能力越好，也就是信息量越大。而这个log likelihood在参数真实值处的负二阶导数，就反应了这个log likelihood在顶点处的弯曲程度，弯曲程度越大，整个log likelihood的形状就越偏向于高而窄，也就代表掌握的信息越多。

Fisher Information的第三条数学意义:theta协方差的逆矩阵（它的逆矩阵被称为协方差矩阵）。Fisher Information反映了我们对参数估计的准确度，它越大，对参数估计的准确度越高，即代表了越多的信息。

infomation available project rebuild

fisher-yates算法个数fisher

特征fisher score