概率统计之统计部分抄ppt

发布时间 2023-06-20 04:16:14作者: skyh

统计基础

统计量

定义:样本不依赖于位置参数的函数

常用统计量:

  • 样本均值:\(\bar X = \sum_i X_i / n\)
  • 样本方差:\(S^2 = \sum_i (X_i - \bar X)^2 / (n-1)\),这是对 \(X_i\) 方差的无偏估计量。
  • \(k\) 阶矩:\(A_k\)
  • \(k\) 阶中心矩:\(B_k\)

重要分布

\(\chi^2\) 分布

\(n\) 个服从标准正态分布相互独立随机变量的平方和为 \(\chi^2_n\),则称 \(\chi^2_n\) 服从自由度为 \(n\)\(\chi^2\) 分布,记为 \(\chi^2_n \sim \chi^2(n)\)

自由度为 \(n\)\(\chi^2\) 分布的上 \(\alpha\) 分位数记为 \(\chi^2_a(n)\)

例题结论:

  • 正态分布独立样本条件下,\(\bar X\)\(S^2\) 相独立。证明过程大概如下:

  • \((n-1)S^2/\sigma^2 \sim \chi^2(n-1)\)

    • 以上两个结论的证明(可以直接看最后一项):

    • 先取 \(Y_1\) 为均值(即 \(\bar X\)),再取 \(Y_2 \dots Y_n\) 以表示出 \(S^2\)。取 \(Y_2\),由于要求与 \(Y_1\) 不相关(我们不妨假设 \(Y_2\) 只与 \(X_1, X_2\) 有关),在保证单位向量的情况下系数唯一。接着取 \(Y_3\),其与 \(Y_1\) 不应当相关(这是与均值独立的要求),与 \(Y_2\) 也不应当相关(保证变量相互独立,以证明下一题),因此可以列出形如 \(A_{31}+A_{32}+A_{33} = 0,A_{31} = A_{32}, A_{31}^2+A_{32}^2+A_{33}^2=1\) 三个方程,这又唯一确定了这三个系数。以此类推得到系数矩阵 \(A\)

    • 为什么这种方式使得 \(Y_2^2 + \dots + Y_n^2\) 恰好表示出 \(S^2\)?不知道。

    • 看了下lds课件,其实根本没必要以这种方式构造式的给出系数矩阵 \(A\)。直接取系数矩阵 \(A\) 的第一行为 \(\frac{1}{\sqrt{n}}\) 来表示均值,其他任取但保证单位正交。那么有 \(\sum Y_i^2 = Y^TY = X^TA^TAX = X^TX = \sum X_i^2\)。再由 \(Y_1 = \bar X \sqrt{n}\) 可得 \(\sum \limits_{i=2}^nY_i^2 = \sum X_i^2 - n\bar X^2 = \sum(X_i - \bar X)^2\)。因为正交的构造,也可以立得两个结论。

  • \(\chi^2_2\sim Exp(1/2)\)

\(t\) 分布

\(X \sim N(0,1), Y \sim \chi^2(n)\)\(X, Y\) 相互独立,\(T = \dfrac{X}{\sqrt{\dfrac{Y}{n}}}\),则称 \(T\) 服从自由度为 \(n\)\(t\) 分布,记作 \(T \sim t(n)\)

统一量纲:分母应当开根号。

\(t\) 分布在自由度较大时近似为标准正态分布。

例题结论:

  • \(\dfrac{\bar X - \mu}{\sqrt{\dfrac{S^2}{n}}} \sim t(n-1)\)
    • 已经证明两个变量相互独立,再根据 \((n-1)S^2/\sigma^2 \sim \chi^2(n-1)\) 凑一下就可以了。
    • 注意下面 \(S\) 除的是 \(n\),但凑出来的是 \(t(n-1)\)
  • \(T = \dfrac{(\bar X - \bar Y) - (\mu_1 - \mu_2)}{S_w\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}\),其中 \(S_w^2 = \dfrac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1 + n_2 - 2}\)。则 \(T \sim t(n_1 + n_2 - 2)\)
    • \(\bar X - \bar Y\) 为正态分布,标准化。由于 \(\chi^2\) 分布的可加性,将 \(S_1^2, S_2^2\) 分别拿出来凑一个 \(\chi^2\) 分布。

F分布

\(X \sim \chi^2(n_1), Y\sim \chi^2(n_2)\)\(X, Y\) 独立。称 \(F = \dfrac{\frac{X}{n_1}}{\frac{Y}{n_2}}\) 服从自由度为 \((n_1, n_2)\)\(F\) 分布,记作 \(F \sim F(n_1, n_2)\)

\(F(1, n)\)\(t(n)\) 的平方。

例题结论:

  • \(F = \dfrac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2} \sim F(n_1 - 1, n_2 - 1)\)

参数估计

点估计

定义:用简单随机样本统计量估计参数,称为点估计量。样本确定取值,用点估计量估计出的值称为点估计值。

矩法(矩估计)

用前 \(k\) 阶矩或中心矩,估计 \(k\) 个参数。

方法:先用参数表示前 \(k\) 阶(中心)矩,再反解出参数,代入样本即可。

极大似然估计

Bayes 公式:\(P(\theta|A) = \dfrac{P(A|\theta)P(\theta)}{P(A)}\),现在样本 \(A\) 已知,如果假设 \(P(\theta)\) 是均匀分布的,\(\text{argmax}\ P(\theta|A) = \text{argmax}\ P(A|\theta)\),因此极大似然。为了方便,取 \(\log\) 是常用的方法。

估计量的标准

无偏性

无偏估计量、渐进无偏估计量

有效性

对于所有的 \(\theta\),方差都不大。且存在一个 \(\theta\) 方差小,则更有效。

均方误差原则

均方误差。

相合性

\(\hat \theta\) 收敛于 \(\theta\)

置信区间

定义:两个统计量夹住概率至少为 \(\alpha\) 的参数取值区间,称 \(\alpha\) 为置信度。双侧置信区间、单侧置信区间。

枢轴量

样本和待估参数的函数,但其分布只依赖于样本,不依赖于未知参数。

例如在独立同分布的总体中取样,根据中心极限定理,减均值除标准差后近似服从 \(N(0, 1)\) 分布,这与待估参数无关。

因此如果给定待估参数和样本,可以通过减均值除方差之后落入的点的概率来判断是否可信,即可信区间。

正态分布总体下区间估计

单个正态总体估计 X

已知 \(\sigma^2\),估计 \(\mu\)

\(\bar X\)\(\dfrac{\bar X - \mu}{\sigma/\sqrt{n}} \sim N(0, 1)\)

未知 \(\sigma^2\),估计 \(\mu\)

还要用 \(\bar X\),但因为 \(\sigma\) 未知,用样本标准差 \(S\) 代替,这也对应着 \(t\) 分布在自由度大时近似标准正态分布。

\(\dfrac{\bar X - \mu}{S / \sqrt{n}} \sim t(n - 1)\)

未知 \(\mu\),估计 \(\sigma^2\)

\((n-1)S^2/\sigma^2 \sim \chi^2(n-1)\)

两个正态总体估计 X,Y

已知 \(\sigma_1^2, \sigma_2^2\),估计 \(\mu_1 - \mu_2\)

\(\bar X - \bar Y\) 看成一个正态分布就行了。

\(\sigma_1 = \sigma_2\) 但未知,估计 \(\mu_1 - \mu_2\)

\(T = \dfrac{(\bar X - \bar Y) - (\mu_1 - \mu_2)}{S_w\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \sim t(n_1 + n_2 - 2)\)

\(\sigma_1 \neq \sigma_2\) 且未知

如果充分大,用中心极限定理把 \(\bar X - \bar Y\) 近似成标准正态分布做。

对于有限小样本,\(\bar X - \bar Y\) 近似服从 \(t(\min\{n_1 - 1, n_2 - 1\})\)

\(\mu_1, \mu_2\) 未知,估计 \(\sigma_1^2 / \sigma_2^2\)

\(\dfrac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2} = \dfrac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2} \sim F(n_1 - 1, n_2 - 1)\)