频率学派和贝叶斯学派-526互联

贝叶斯定理

贝叶斯推断是一种统计学方法，用来估计统计量的某种性质。
贝叶斯推断与传统的频率学派不同，它是建立在主观判断的基础上的，也就是说，你可以不需要客观证据，先估计一个值，然后根据实际结果不断修正。由于其主观性太强，所以在一些传统行业内更偏向于传统的频率学派。

贝叶斯定理需要先验知识作为支撑，而先验知识需要大量的计算和历史数据，因此在很长一段时间内，无法得到广泛应用。只有计算机诞生以后，它才获得真正的重视。人们发现，许多统计量是无法进行客观判断的，而互联网时代出现的大型数据集，再加上告诉运算能力，为验证这些统计量提供了方便，也为应用贝叶斯定理创造了条件。

条件概率

\[P( A \mid B ) = \frac {P(A \bigcap B) } {P(B)} P(A \bigcap B) = P(A \mid B) * P(B) \]

同理可得：

\[P(A \bigcap B) = P(B \mid A) * P(A) \]

即：

\[P(A \mid B) * P(B) = P(B \mid A) * P(A) \]

\[P(B \mid A) = \frac {P(A \mid B) * P(B)} {P(A)} \]

全概率公式

若事件 B_1、 B_2、……构成一个完备事件组，且都有正概率，那么对于任意一个事件A，有如下公式:

\[P(A) = P(AB_1) + P(AB_2) + \cdots + P(ABn) = \\ P(A \mid B_1)P(B_1) + P(A \mid B_2)P(B_2) + \cdots + P(A \mid B_n)P(B_n) \]

此公式为全概率公式，特别的，对于任意两随机事件A和B，有如下成立：

\[P(B) = P(B \mid A)P(A) + P(B \mid \bar A)P(\bar A) \]

贝叶斯公式

贝叶斯公式，其实原本应该叫逆概公式。通过对条件概率的简单变形，就可以得到贝叶斯公式：

\[P(B \mid A) = P(B) * \frac {P(A \mid B)} {P(A)} \]

贝叶斯公式由三部分形成，先验概率、后验概率、似然估计。其中后验概率 = 先验概率 * 似然估计。在上述公式中，

\[P(B) 是先验概率， \frac {P(A \mid B)} {P(A)} 是似然估计， P(A) 是后验概率。 \]

所谓先验概率就是在事件A发生之前，我们对B事件概率的一个判断。后验概率则指的是在事件A发生之后，我们对B事件概率的重新评估。似然估计是一个调整因子或者修正参数，在我们计算事件概率的时候，需要不断通过修正参数使得我们所求的概率无限接近于真实概率。

贝叶斯公式的实例

通过一些实例可以对贝叶斯公式有更深的理解。

天气预测问题

根据若干年的统计（经验）或者气候（常识），某地方下雨的概率——先验概率
下雨（结果）的时候有乌云（原因/证据/观察的数据）的概率，即已经有了结果，对证据发生的可能性描述——似然
根据天上有乌云（原因或者证据/观察数据），下雨（结果）的概率——后验概率

有下雨的可能（先验），下雨之前会有乌云（似然）→ 现在有乌云，可以推断是否下雨。

机器故障问题

一机器在良好状态生产合格产品几率是90%，在故障状态生产合格产品的合格几率是75%，若该机器生产出了一件合格产品，那么此机器良好的概率是多少？

	产品好	产品坏
机器好	0.75 * 0.9	0.75 * 0.1
机器坏	0.25 * 0.3	0.25 * 0.7

假定事件A表示产品好，事件B表示机器好，之后看贝叶斯公式就可以了。

水果糖问题

有两个完全相同的碗，其中第一个碗中有30颗水果糖和10颗巧克力糖，第二个碗中有20颗水果糖和20颗巧克力糖。现在随机选一个碗拿一颗糖，发现是水果糖，那么这颗糖来自第一个碗的概率是多少？

假定H_1代表一号碗，H_2代表二号碗。因为两个碗完全相同，所以

\[P(H_1) = P(H_2) = 0.5 \]

。我们认为这是先验概率，即在我们没有做实验之前，来自一号碗的概率是0.5。

再假定，E表示水果糖，所以问题就变成了在已知E的情况下，来自一号碗的概率有多大，即求 P(H_1｜E)，此概率即为后验概率，即在E事件发生以后，对P(H_1)的修正。

根据条件概率公式，得到：

\[P(H_1 \mid E) = P(H_1) \frac {P(E \mid H_1)} {P(E)} \]

已知

\[P(H_1) = 0.5 、P(E \mid H_1) = 30 / 40 = 0.75 \]

\[P(E) = P(E \mid H_1)P(H_1) + P(E \mid H_2)P(H_2) \]

则：

\[P(H_1 \mid E) = 0.5 * 0.75 / 0.625 = 0.6 \]

我们发现经过事件E之后，H_1事件的概率得到了提高。

假阳性问题

已知某种疾病的发病率是0.001，即1000个人中会有1个人得病。现有一种试剂可以检验患者是否得病，它的准确率是0.99，即在患者确实得病的情况下，它有99%的可能呈现阳性。它的误报率为5%，即在患者没有得病的情况下，它有5%的可能呈现阳性。现有一个病人的检验结果为阳性，请问他确实得病的可能性多大？

假设A事件表示得病，那么P(A) = 0.001。这就是先验概率，即没有做实验之前，我们预计的发病率。再假定B事件表示阳性，那么要计算就是 P(A｜B) 。这就是后验概率，即做了实验之后，对发病率的估计。

根据条件概率公式

\[P(A \mid B) = P(A) \frac {P(B \mid A)} {P(B)} \]

用全概率公式计算得

\[P(A \mid B) = P(A) \frac {P(B \mid A)} {P(B \mid A)P(A) + P(B \mid \bar A)P(\bar A)} \]

\[P(A \mid B) = 0.001 * 0.99 / (0.99 * 0.001 + 0.05 * 0.999) = 0.019 \]

也就是说即使检验的结果为阳性，病人得病的概率也只是从0.1%到了2%左右。所谓假阳性，即阳性结果完全不足以说明病人得病。虽然这与我们的常规认识不同，但是这个结果主要是因为误报率过高导致的。

频率学派和贝叶斯学派的区别

直至今日，关于统计推断的主张和想法，大体可以纳入到两个体系之内，其一叫频率学派，其特征是把需要推断的参数θ视作固定且位置的常数，而样本X是随机的，其着眼点在样本空间，有关的概率计算都是针对X的分布。另一派叫做贝叶斯学派，认为参数θ是随机变量，而样本X是固定的，其着眼点在参数空间，重视参数θ的分布，固定的操作模式是通过参数的先验分布结合样本信息得到参数的后验分布。

频率学派最重要的就是不断的重复（越多越好，趋近于无限），而贝叶斯学派讲的都是抽样和分布。下面是一些频率学派和贝叶斯学派之间思想不一致的地方。

频率学派认为抽样是无限的。在无限次的抽样中，对于决策的规则可以很精确；而贝叶斯学派认为世界无时无刻不在改变，未知的的变量和事件都有一定的概率。这种概率会随时改变这个世界的状态（前面提到的后验概率是先验概率的修正）。
频率学派认为模型的参数是固定的，一个模型在无数次抽样过后，所有的参数都应该是一样的；而贝叶斯学派则认为数据应该是固定的，我们的规律从我们对这个世界的观察和认识中得来。我们看到的即是真实的、正确的。应该从观测的事物来估计参数。
频率学派和贝叶斯学派争论的焦点在于先验概率。频率学派认为只有在先验分布有一种不依赖主观的意义，且能根据适当的理论或以往的经验决定时，才允许在统计推断中使用先验分布，否则就会丧失客观性。但是贝叶斯学派认为先验分布可以是主观的，不需要有频率解释。
频率论对概率的解释是：一个事件在一段较长的时间内发生的频率；贝叶斯对概率的解释是人们对某事件是否发生的认可程度。
贝叶斯论善于利用过去的只是和抽样数据，而频率论仅仅利用抽样数据。因此，贝叶斯推论中前一次得到的后验概率分布可以作为后一次的先验概率。但是贝叶斯的问题在于，无信息先验已经被证明是不存在的。所有的先验参数变换后都不可避免的带有主观性。而频率学派用最大似然估计（MLE）则没有这个问题。频率学派的困难在于如何利用前人已有的经验。

频率学派和贝叶斯学派的区别可大可小。往大里说，两者的世界观就不同，频率派认为参数是客观存在的，不会改变，虽然未知，但却是固定的；贝叶斯认为参数是随机值，因为没有观察到，那么和一个随机数也没有什么区别，因此参数也可以有分布。往小处说，频率派最关心的是似然函数，而贝叶斯最常关心的是后验分布。但根据贝叶斯公式来看，贝叶斯方法也需要似然函数来计算，因此两者的一些方法是相通的。

贝叶斯派因为所有的参数都是随机变量，都有分布，因此可以使用一些基于采样的方法（MCMC）使得我们更容易构建复杂模型。频率派的优点则是没有假设一个先验分布，因此更加客观，也更加无偏，在一些保守的领域（比如制药业、法律）比贝叶斯方法更受到信任。

最后看一下先验分布是如何得到的。

先验分布的得到是主观的，这也是它争议的地方。
为了方便计算，可以假设它属于一个分布，而它的的后验分布也是这个FAMILY里的。比如正态分布和BETA分布。
还有一种先验叫Non In Formative，假设我们对它一无所知。

有些问题，比如太阳有没有爆炸之类，有比较明确的先验概率。而我们之所以相信这个先验概率，无非是因为我们知道在地球诞生以来的几十亿年里太阳都没有爆炸。我们不相信心电感应，无非是因为我们的日常生活中极少有人见过心电感应。仔细考察起来，这些先验概率其实也是从长期观察得来的。如果考虑到这点，频率派和贝叶斯派就很难区分了。

更糟糕的是，科学实验往往探索的是以前没有探索过的新领域。很少有人去研究心电感应这种没什么希望的东西（也很少有人会资助这种研究）。在一个新领域，往往没有特别公认的先验概率，那么怎么办呢？这时候往往还是使用不提供任何信息的non-informative prior。

参考资料：