数据统计分析 — 抽样分布

发布时间 2023-11-01 09:58:33作者: VipSoft

从总体(容量为N个体)多次取出样本(容量为n个体),通过n的某个统计量的情况,来预估总体的情况

抽样

  • 从有限总体的抽样

    简单随机样本(有限总体):从容量N的有限总体中抽取一个容量n的样本,如果容量为n的每一个可能的样本都以相等的概率被抽出,则称该样本为简单随机样本

  • 从无限总体的抽样

    随机样本(无限总体):如果从一个无限总体中抽取一个容量为n的样本,抽取的每个个体来自同一总体,每个个体的抽取是独立的,则称该样本是一个随机样本

抽样分布

样本均值 \(\bar{x} \Rightarrow\) 总体均值 \(\mu\) ,样本的均值是总体均值的点估计

我们从总体N中抽取样本n,抽一次我们可以得出这个样本的均值 \(\bar{x}\) 1,再抽一次又可以得出这个新样本的均值 \(\bar{x}\) 2,再抽一次又可以得出这个新样本的均值 \(\bar{x}\) 3 ··········

可以看出样本均值 \(\bar{x}\) 是一个随机变量,它是对每一次试验结果的一个数值描述,样本均值 \(\bar{x}\) 也有均值,标准差和概率分布。

即: \(\bar{x}\) 的抽样分布是样本均值 \(\bar{x}\) 的所有可能值的概率分布。

性质:

\(E(\bar{x}) = \mu\) ,式中, \(E(\bar{x})\)\(\bar{x}\) 的数学期望, \(\mu\) 是总体均值
这个意思是说,对于简单随机抽样, \(\bar{x}\) 的抽样分布的均值或数学期望等于总体的均值【看这里,我们通过不断抽样样本得到的一系列均值,然后这些均值的均值就是总体的均值】

\(\bar{x}\) 的标准差(为了跟总体的标准差区别,我们称它为标准误差
image
有限总体
image
无限总体

在实际抽样中,我们发现虽然总体是有限的,但容量很“大”,相对而言样本容量很“小”,这是可以忽略有限总体和无限总体标准差的区别。

我们采用的一个指导方针或经验法则,当 n / N ≤ 0.05时, \(\bar{x}\) 的标准差是:
image

\(\bar{x}\) 的抽样分布的形状

总体服从正态分布

当总体服从正态分布,在任何样本容量下 \bar{x} 的抽样分布都是正态分布

总体不服从正态分布

上一篇说了正态分布超级重要,这里你看总体不服从正态分布,那我的样本咋个搞,数学家和统计学家教你做人,“中心极限定理”了解一下,总之总是能给你靠近正态分布,就是这么不讲道理。

中心极限定理: 从总体中抽取容量为n的简单随机样本,当样本容量很大时,样本均值 \(\bar{x}\) 的抽样分布近似服从正态分布。
image
那样本容量达到多少时近似正态,对于大多数应用,假定当 样本容量 ≥30 时, \(\bar{x}\) 的抽样分布可用正态分布近似,当总体是严重偏态或出现异常点,可能需要样本容量达到 50

点估计

  • 无偏性
    image
    如果样本统计量期望等于总体统计量,则这是个无偏估计

  • 有效性
    对同一总体参数,如果有多个无偏估计量,那么标准差最小的估计量更有效。因为一个无偏的估计量并不意味着它就非常接近被估计的参数,它还必须和总体参数的离散程度比较小

  • 一致性
    一致性是指随着样本量的增大,点估计的值越来越接近被估计的总体的参数

区间估计

因为不可能期望点估计能给出总体参数的精确值,所以经常在点估计上加减一个被称为边际误差的值来计算区间估计,故区间估计的形式为:点估计 ± 边际误差

1.总体均值的区间估计: \(\sigma\) 已知情况

举个例子,一个公司每周选择100名顾客组成一个简单随机样本,目的是为了了解他们每次购物的消费额 x,样本均值 \(\bar{x}\) 是公司全体顾客每次购物消费额的总体均值 \(μ\) 的点估计,历史数据表明数据总体服从正态分布, \(\sigma\) =20.

最近一周,公司抽取了100名顾客,得到样本均值 \(\bar{x}\) =82,每次购物消费额的样本均值是总体均值的点估计,再确定 \(\bar{x}\) 的抽样分布的标准误差(由上面公式可得)等于2,而抽样分布的 \(\bar{x}\) 是分布在总体均值 \mu 附近的。

我们通过查标准正态分布表,任何正态分布随机变量都有95%的值在均值 ± 1.96×标准误差以内,这里计算后写成:在n=100的样本容量下, \(\bar{x}\) 的所有值中有95%落在总体均值 \(\mu\pm3.92\) 以内,如下图:
image
这里的95%是我们自己定的,这个值叫做“置信水平”或者“置信系数”,而区间 \(\mu\pm3.92\) 叫做“置信区间”,最后我们总结一下公式形式:

总体σ已知时,总体均值的区间估计

式中,1 - \(\alpha\) 是置信系数, \(z_{\alpha/2}\) 表示标准正态概率分布右侧面积为 \(\alpha/2\) 时的 \(z\) 值.

常用的置信水平下的 z 值

2.总体均值的区间估计: \(\sigma\) 未知情况

当总体的 \(\mu,\sigma\) 都是未知参数时,咋个搞?我们可以用样本标准差 s 去估计 \(\sigma\) ,此时边际误差和总体均值的区间估计都以 t 分布的概率分布为依据,虽然t 分布的数学推导假设抽样总体服从正态分布,但实践表明,即使总体分布显著偏离正态分布,利用t 分布的效果还是不错的(没错,正态分布就是这么不讲道理)

t 分布是由一类相似的概率分布组成的分布族,某个特定的t 分布依赖于“自由度”参数,随着自由度的增大,t分布与标准正态分布的差别越来越小(正态分布NB),且t 分布的均值为0

所以上面的公式我们变形一下:

总体σ未知时,总体均值的区间估计

式中,s为样本标准差,1-α 为置信系数,自由度为n-1的t 分布中, \(t_{\alpha/2}\) 上侧的面积恰好等于 \(\alpha/2\)

s 作为总体标准差的估计值,与式中t值对应的自由度为n -1,标准差公式为:
image

样本标准差
自由度是计算 \(\sum_{}^{}{(x_{i}-\bar{x})^{2}}\) 时所用到的独立信息个数,因为任何数据集 \(\sum_{}^{}{(x_{i}-\bar{x})}=0\) ,因此只要知道n-1个值就可以确定余下的值(就是说知道n-1个数就知道了n个数),因此上面区间估计公式中t 分布的自由度是n-1.

注:

如果总体服从正态分布,以上的区间估计公式所给出的置信区间是精确的,并适用于任何样本容量。如果总体不服从正态分布,这给出的置信区间时近似的,近似的程度依赖于总体分布和样本容量。

在绝大部分应用中,样本容量n≥30已经足够大了,如果总体分布严重偏斜或有异常点,建议样本容量增加到50及以上,如果总体分布不是正态分布但大致对称,则样本容量达到15就可以了。

https://zhuanlan.zhihu.com/p/123314439