如图所示 正态分布
$\mu$表示平均值
$\sigma$表示方差
① 蓝色区域 是 和 $\mu$相差 1 个$\sigma$范围内的,占总体的 68.26%
②蓝色 + 红色区域 是 和 $\mu$相差 2 个$\sigma$范围内的,占总体的 95.44%
③蓝色 + 红色 + 黄色区域 是 和 $\mu$相差 3 个$\sigma$范围内的,占总体的 99.74%
有 68.26%的可能性,样本会在区域①取值
有 95.44%的可能性,样本会在区域②取值
有 99.74%的可能性,样本会在区域③取值
99.74%是个很大的数了,所以大部分样本取值应该满足$$P(|x-\mu|\gt 3\sigma)\le 0.003$$
这个式子是什么意思?
样本的取值,距离均值$\mu$,大于 3 个方差$\sigma$的可能性,要小于0.003。
所以一般认为,样本的取值范围,应该满足上面的这个式子。
而超出的个取值范围的样本,一般也就被当做离群点或异常值。