再探概率论

发布时间 2023-09-24 19:56:38作者: Legend_dy

公式速查

几种常见分布极其数字特征

名称 符号 公式$P(x=k)$/$f(x)$ 期望 方差
0-1分布 $B(1, p)$ $pk(1-p)$ $p$ $p(1-p)$
二项分布 $B(n,p)$ $\dbinom n k pk(1-p)$ $np$ $np(1-p)$
泊松分布 $P(\lambda)$ $e{-\lambda}{\lambdak\over k!}$ $\lambda$ $\lambda$
几何分布 $G(p)$ $(1-p)^kp$ ${1\over p}$ $1-p\over p^2$
均匀分布 $U(a,b)$ ${1\over b-a}$ $a+b\over 2$ $(b-a)^2\over 12$
指数分布 $E(\lambda)$ $\lambda e^{-\lambda x}$ ${1\over \lambda}$ $1\over \lambda^2$
标准正态分布 $N(0, 1)$ $\varphi(x)={1\over \sqrt {2\pi}}e{-{x2\over 2}}$ $0$ $1$
一般正态分布 $N(\mu, \sigma)$ ${1\over \sqrt{2\pi}\sigma}e{-{(x-\mu)2\over 2\sigma ^2}}$ $\mu$ $\sigma^2$
自由度为 $n$ 的卡方分布 $\chi^2(n)$ |$n$ $2n$

二项分布与泊松分布的渐进

$X\sim B(n, p)\stackrel \cdot\sim P(np)$

指数分布的性质

$X\sim E(\lambda)\wedge x>0\to \displaystyle P(X>x)=\int_x^{+\infty} \lambda e^{-\lambda x}\text dx=e^{-\lambda x}$

无记忆性:$a<b\to P(X>b\mid X>a)=P(x>b-a)$

一般正态分布查表

$X\sim N(\mu, \sigma^2)\to F_X(x)=\Phi({x-\mu\over \sigma})$

切比雪夫不等式

设随机变量 $X$ 的数学期望 $E(x)=\mu$ 和方差 $D(X)=\sigma^2$ 都存在,则对于任意的正数 $\varepsilon >0$ ,有:

$\displaystyle P(|X-\mu|\geq \varepsilon)\leq {\sigma^2\over \varepsilon^2}$

推论:$\displaystyle P(|X-\mu|<\varepsilon)\geq 1-{\sigma^2\over \varepsilon^2}$

上 $\alpha$ 分位点的性质

$u_{1-\alpha}=-u_{\alpha}$

$t_{1-\alpha}(n)=-t_{\alpha}(n)$

$\displaystyle F_\alpha(m, n)={1\over F_{1-\alpha}(n, m)}$

正态总体抽样分布的性质

$\displaystyle {\bar X-\mu\over \sigma/\sqrt n}\sim N(0, 1)$

$\displaystyle {\bar X-\mu\over S/\sqrt n}\sim t(n-1)$

$\displaystyle {1\over \sigma2}\sum_{i=1}n(X_i-\bar X)2={(n-1)S2\over \sigma^2}\sim \chi^2(n-1)$

$\displaystyle {1\over \sigma2}\sum_{i=1}n(X_i-\mu)^2\sim \chi^2(n)$

$\bar X-\bar Y\sim N(\mu_1-\mu_2, {\sigma_1^2\over m}+{\sigma_2^2\over n})$

$\displaystyle {S_12/\sigma_12\over S_2^2/ \sigma_2^2}\sim F(m-1, n-1)$


随机事件及其概率

随机试验特点

  1. 可重复性:试验可以在相同条件下重复进行。
  2. 可确定性:每一次试验,可能出现各种不同结果,但所有可能出现的结果事先是明确的。
  3. 不确定性:每一次试验,实际只出现一种结果,至于实际出现哪一种结果,试验之前是无法预先知道的。

随机事件的关系与运算

  1. 事件的包含 $A\subset B$
  2. 事件的互斥 $AB=\varnothing$
  3. 事件的对立 $\bar A$
  4. 事件的和 $A\cup B$
  5. 事件的差 $A-B$
  6. 事件的积 $A\cap B$($AB$)

完备事件组:对于一个样本空间 $\Omega$,若有随机事件 $A_1, A_2, \cdots ,A_n$ 满足 $\displaystyle \bigcup_{i=1}^n A_i=\Omega\wedge (\forall i\neq j\to A_iA_j=\varnothing)$ 则称为对样本空间的一个分割,也叫完备事件组

  1. 交换律: $AB=BA, A\cup B=B\cup A$
  2. 结合律: $(AB)C=A(BC), (A\cup B)\cup C=A\cup (B\cup C)$
  3. 分配律: $(A\cup B)C=AC\cup BC, (AB)\cup C=(A\cup C)(B\cup C)$
  4. 对偶律: $\overline{A\cup B}=\bar A\bar B, \overline{AB}=\bar A\cup \bar B$

124 可推广至 $n$ 元形式

概率的公理化定义

设随机试验 $E$ 的样本空间为 $\Omega$ ,对试验 $E$ 的任一随机事件 $A$,定义实值函数 $P(A)$ ,若它满足以下三个公理:

  1. 非负有界性: $0\leq P(A)\leq 1$
  2. 规范性: $P(\Omega)=1$
  3. 可列可加性: 对无穷多个两两互不相容的随机事件 $A_1, A_2,\cdots ,A_n, \cdots$ 有 $\displaystyle P(\bigcup_{i=1}^{\infty} A_i)=\sum_{i=1}^{\infty} P(A_i)$

性质:

  1. 不可能事件概率为 $0$ ,即 $P(\varnothing)=0$
  2. 有限可加性: 对有限多个两两互不相容的随机事件 $A_1, A_2,\cdots ,A_n$ 有 $\displaystyle P(\bigcup_{i=1}^{n} A_i)=\sum_{i=1}^{n} P(A_i)$
  3. 对任一事件 $P(A)=1-P(\bar A)$
  4. 对任意两个事件 $A,B$,若 $B\subset A$,则 $P(A-B)=P(A)-P(B)$

推论:

  1. 对任意两个随机事件 $A,B$,若 $B\subset A$,则 $P(A)\geq P(B)$
  2. 减法公式:对任意的两个随机事件 $A,B$,有 $P(A-B)=P(A)-P(AB)$
  3. 加法公式:对任意的两个随机事件 $A,B$,有 $P(A\cup B)=P(A)+P(B)-P(AB)$

条件概率

设 $A,B$ 是两个随机事件,且 $P(B)>0$ ,称 $\displaystyle P(A\mid B)={P(AB)\over P(B)}$ 为事件 $B$ 发生的条件下事件 $A$ 发生的条件概率

乘法公式

设 $A,B$ 是两个随机事件,且 $P(B)>0$ ,则 $P(AB)=P(B)P(A\mid B)$

同理,若 $P(A>0)$,则 $P(AB)=P(A)P(B\mid A)$

$n$ 元乘法公式:对于 $n$ 个随机事件 $A_1,A_2, A_3, \cdots , A_n$,则

$P(A_1A_2A_3\cdots A_n)=P(A_1)P(A_2\mid A_1)P(A_3\mid A_1A_2)\cdots P(A_n\mid A_1A_2\cdots A_{n-1})$

全概率公式

设 $A_1,A_2,\cdots ,A_n$ 是一个完备事件组, $\forall i\in[1,n]\cap Z\to P(A_i)>0$,则对于事件 $B$,有:$\displaystyle P(B)=\sum_{i=1}^n P(A_i)P(B\mid A_i)$

贝叶斯公式

设 $A_1,A_2,\cdots ,A_n$ 是一个完备事件组, $\forall i\in[1,n]\cap Z\to P(A_i)>0$,则在 $B$ 已经发生的条件下,$A_j$ 发生的条件概率为

$\displaystyle P(A_j\mid B)={P(A_jB)\over P(B)}={P(A_j)P(B\mid A_j)\over \displaystyle \sum_{i=1}^n P(A_i)P(B\mid A_i)}$

事件的独立性

对任意两个事件 $A,B$ ,若有 $P(AB)=P(A)P(B)$,则称事件 $A$ 与事件 $B$ 相互独立

若事件 $A$ 与事件 $B$ 独立,则 $\bar A$ 与 $B$,$A$ 与 $\bar B$,$\bar A$ 与 $\bar B$ 是三组相互独立的事件

对于任意三个事件 $A,B,C$,若有:$\begin{cases}
P(AB)=P(A)P(B)
\\P(AC)=P(A)P(C)
\\P(BC)=P(B)P(C)
\end{cases}$

则称事件 $A,B,C$ 两两独立,若还有 $P(ABC)=P(A)P(B)P(C)$, 则称为相互独立

试验的独立性

设 $E_1, E_2, \cdots ,E_n$ 为 $n$ 次随机试验,如果 $E_1$ 的任一事件、$E_2$ 的任一事件、$\cdots $、$E_n$ 的任一事件之间都是相互独立的,则称 $E_1, E_2, \cdots , E_n$ 相互独立。

如果这 $n$ 次独立试验是相同的,则称其为独立重复试验。

如果这 $n$ 次试验都是只考虑一个事件 $A$ 的发生与不发生,且 $A$ 在每次试验中发生的概率都恒为 $p$ ,则这类试验为伯努利概型试验。


随机变量与分布

分布函数

设 $X$ 是随机变量,对任意实数 $x$,令 $F(x)=P(X\leq x),x\in R$,则称函数 $F(x)$ 为随机变量 $X$ 的分布函数,或记为 $F_X(x)$

性质:

  1. 非负有界性:$0\leq F(x)\leq 1\wedge F(-\infty)=0\wedge F(+\infty)=1$
  2. 单调不减性:$x_1<x_2\to F(x_1)\leq F(x_2)$
  3. 右连续性:$F(x+0)=F(x)$

离散型随机变量

设离散型随机变量 $X$ 的所有可能取值为 $x_k(k=1, 2, \cdots)$,$X$ 取各个值的概率为 $P(X=x_k)=p_k, k=1, 2, \cdots$

该式为随机变量 $X$ 的概率分布或分布律

性质:

  1. 非负性: $p_k\geq 0,k=1, 2, \cdots$
  2. 归一性: $\displaystyle \sum_kp_k=1$

连续型随机变量

设随机变量 $X$ 的分布函数为 $F(x)$ ,若存在非负实函数 $f(x)$ 使对任意的实数 $x$,都有 $\displaystyle F(x)=P(X\leq x)=\int_{-\infty}^xf(t)\text dt$

则称 $X$ 为连续型随机变量,其中 $f(x)$ 为 $X$ 的概率密度函数,简称概率密度或分布密度,或记为 $f_X(x)$

性质:

  1. 非负性: $f(x)\geq 0$
  2. 归一性: $\displaystyle \int_{-\infty}^{+\infty} f(x)\text dx=1$
  3. 对任意实数 $a,b(a<b)$ ,有 $\displaystyle P(a<X\leq b)=F(b)-F(a)=\int_a^b f(x)\text dx$
  4. $P(X=x)=F(x)-F(x-0)=0$
  5. 在 $f(x)$ 的连续点 $x$ 处,有 $F'(x)=f(x)$

正态分布的性质

$X\sim N(0, 1)\to \varphi(x)={1\over \sqrt{2\pi}}e{-{x2\over 2}}$

$\displaystyle \Phi(x)=\int_{-\infty}^x\varphi(t)\text dt$

$X\sim N(\mu, \sigma^2)\to F(x)=\Phi({x-\mu\over \sigma})$

随机变量函数的分布

设给定离散型随机变量 $X$ 的分布,则 $Y=g(X)$ 也是一个离散型随机变量,其所有可能的取值为 $y_k=g(x_k),k=1, 2, \cdots$

$\displaystyle P(Y=y_k)=\sum_{g(x_i)=y_k}P(X=x_i)$

已知连续型随机变量 $X$ 的概率密度为 $f_X(x),y=g(x)$ 是连续型实函数,则求解 $f_Y(y)$ 步骤如下:

  1. 求解 $F_Y(y)=P(Y\leq y)=P(g(X)\leq y)$
  2. 利用 $f_Y(y)=F_Y'(y)$ 求解

多维随机变量及其分布

联合分布函数

设 $(X,Y)$ 是二维随机变量,对于任意实数 $x,y$ ,称二元函数 $F(x,y)=P(X\leq x,Y\leq y)$ 为二维随机变量 $(X,Y)$ 的联合分布函数,简称分布函数

性质:

  1. $F(x,y)$ 分别是变量 $x$ 和变量 $y$ 的单掉不减函数
  2. $F(x,y)$ 非负有界,且对于任意固定的 $x$ ,有 $F(x,-\infty)=0$;对任意固定的 $y$ ,有 $F(-\infty, y)=0$ ;且 $F(-\infty, -\infty)=0, F(+\infty, +\infty)=1$
  3. $F(x,y)$ 分别是变量 $x,y$ 的右连续函数
  4. 对任意的 $(x_1, y_1), (x_2, y_2)$ 若 $x_1<x_2, y_1<y_2$ ,则 $0\leq F(x_2, y_2)-F(x_1, y_2)-F(x_2, y_1)+F(x_1, y_1)\leq 1$

$F_X(x)=F(x,+\infty), F_Y(y)=F(+\infty, y)$ 分别为二位随机变量 $(X,Y)$ 关于 $X$ 和 $Y$ 的边缘分布函数

若对于任意实数 $x, y$,事件 ${X\leq x},{Y\leq y}$ 相互独立,即 $P(X\leq x, Y\leq y)=P(X\leq x)P(Y\leq y)$ 或 $F(x, y)=F_X(x)F_Y(y)$ 则称随机变量 $X$ 与 $Y$ 相互独立

二维离散型随机变量的分布

设二维随机变量 $(X,Y)$ 的所有可能取值只有有限个或可列个,则 $(X,Y)$ 是二维离散型随机变量。若 $(X,Y)$ 的所有可能取值为 $(x_i, y_j), i, j=1, 2, \cdots $ 且 $(X,Y)$ 取各个可能值的概率为 $P(X=x_i, Y=y_j)=p_{ij}, i,j=1, 2,\cdots$

则该式称为二维离散型随机变量 $(X, Y)$ 的联合分布律或联合分布列,简称分布律或分布列

直观上,会以表的形式给出

性质:

  1. 非负性: $p_{ij}\geq 0, i, j=1, 2,\cdots$
  2. 归一性: $\displaystyle \sum_i \sum_j p_{ij}=1$
  3. $\displaystyle F(x, y)=\sum_{x_i\leq x}\sum_{y_j\leq y} p_{ij}$

$\displaystyle P(X=x_i)=\sum_j p_{ij}=p_{i\cdot}, P(Y=y_j)=\sum_i p_{ij}=p_{\cdot j}$ 称为二维离散型随机变量 $(X, Y)$ 分别关于 $X,Y$ 的边缘分布律

若 $(X,Y)$ 为离散型随机变量,$X$ 和 $Y$ 相互独立的充要条件是 $P(X=x_i, Y=y_j)=P(X=x_i)P(Y=y_j)$ 即 $p_{ij}=p_{i\cdot}p_{\cdot j}, i, j=1, 2, \cdots $

若 $(X,Y)$ 为离散型随机变量,其联合分布率为 $P(X=x_i, Y=y_j)=p_{ij}, i, j=1, 2, \cdots$。对于固定的 $j$ ,若 $p_{\cdot j}>0$,则在条件 $Y=y_j$ 下,随机事件 ${X=x_i}$ 发生的概率 $\displaystyle P(X=x_i\mid Y=y_j)={P(X=x_i, Y=y_j)\over P(Y=y_j)}={p_{ij}\over p_{\cdot j}}$,称为在条件 $Y=y_j$ 下,随机变量 $X$ 的条件分布

同理,$\displaystyle P(Y=y_j\mid X=x_i)={p_{ij}\over p_{i\cdot }},p_{i\cdot}>0\wedge i,j=1, 2, \cdots$ ,称为在条件 $X=x_i$ 下,随机变量 $Y$ 的条件分布

二维连续型随机变量的分布

设二维随机变量 $(X,Y)$ 的分布函数为 $F(x,y)$,如果存在非负函数 $f(x,y)$ 使得对任意的实数 $x,y$ 都有 $\displaystyle F(x,y)=\int_{-\infty}x\int_{-\infty}yf(s,t)\text ds\text dt$ 则称 $(X,Y)$ 为二维连续型随机变量。其中 $f(x,y)$ 称为 $(X,Y)$ 的联合概率密度函数,简称概率密度或分布密度。

性质:

  1. 非负性: $f(x,y)\geq 0$
  2. 归一性: $\displaystyle \int_{-\infty}{+\infty}\int_{\infty} f(s, t)\text ds\text dt=F(+\infty, +\infty)=1$
  3. 若 $f(x, y)$ 在点 $(x,y)$ 连续,则 $\displaystyle {\partial^2 F(x,y)\over \partial x\partial y}={\partial^2 F(x,y)\over \partial y\partial x}=f(x,y)$
  4. 对任意 $(x_1, y_1), (x_2, y_2)$ 且 $x_1<x_2, y_1<y_2$,则 $(X, Y)$ 落在矩形 $(x_1,x_2]\times (y_1, y_2]$ 内的概率为 $\displaystyle P(x_1<X\leq x_2, y_1\leq Y\leq y_2)=\int_{x_1}{x_2}\int_{y_1}f(s, t)\text dt\text ds$

设 $G$ 为平面上的有界区域,若二维随机变量 $(X,Y)$ 的分布密度函数为 $f(x, y)=\begin{cases}
{1\over S_G}, (x,y)\in G
\\ 0, \text{其他}
\end{cases}$

其中 $\displaystyle S_G=\iint_G\text dx\text dy$ 为区域 $G$ 的面积,则称二维随机变量 $(X, Y)$ 服从 $G$ 上的均匀分布

二维正态分布的记号 $(X, Y)\sim N(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho)$

其中 $\mu_i$ 和 $\sigma^2_i$ 分别表示第 $i$ 个变量的期望、方差;$\rho$ 表示相关系数

若 $(X, Y)$ 为连续型随机变量,其联合概率密度为 $f(x, y)$,边缘密度为 $f_X(x), f_Y(y)$,则 $X$ 和 $Y$ 相互独立的充要条件是 $f(x, y)=f_X(x)f_Y(y)$ 在 $f(x, y), f_X(x), f_Y(y)$ 的一切公共连续点上都成立

设 $(X, Y)$ 为二维连续型随机变量,联合密度和关于 $X, Y$ 的边缘分布密度分别为 $f(x, y), f_X(f), f_Y(y)$,对于固定的 $x$,若 $f_X(x)>0$,则称 $f_{Y\mid X}(y\mid x)={f(x, y)\over f_X(x)}$ 为在条件 $X=x$ 下,随机变量 $Y$ 的条件概率密度

类似定义 $f_{X\mid Y}(x\mid y)$

二维随机变量极值函数的分布

设随机变量 $X$ 与 $Y$ 相互独立,其分布函数分别为 $F_X(x), F_Y(y)$,则极值 $M=\max{X,Y}, N=\min{X, Y}$ 的分布函数分别为:

$F_M(x)=P(X\leq x,Y\leq x)=F_X(x)F_Y(x)$

$F_N(x)=1-P(X>x, Y>x)=1-[1-F_X(x)][1-F_Y(y)]$

正态分布的可加性

对于随机变量 $X\sim N(\mu_1,\sigma_1^2), Y\sim N(\mu_2, \sigma_2^2)$ ,有 $aX+bY\sim N(a\mu_1+b\mu_2, a2\sigma_12+b2\sigma_22)$

对于随机变量 $X_i\sim N(\mu_i, \sigma_i^2)$ 和常数 $a_i\in R$

有 $\displaystyle \sum_i a_iX_i\sim \displaystyle N(\sum_i a_i\mu_i, \sum_i a_i2\sigma_i2)$


随机变量的数学特征

数学期望

设离散型随机变量 $X$ 的分布律为 $P(X=x_k)=p_k, k=1, 2, \cdots$,若级数 $\displaystyle\sum_k x_kp_k$ 绝对收敛,则称级数 $\displaystyle \sum_kx_kp_k$ 的和为离散型随机变量 $X$ 的数学期望,记为 $E(X)$ 或 $EX$,即 $\displaystyle E(X)=\sum_kx_kp_k$

设连续型随机变量 $X$ 的概率密度为 $f(x)$,若 $\displaystyle\int_{-\infty}^{+\infty} xf(x)\text dx$ 绝对收敛,则称级数 $\displaystyle\int_{-\infty}^{+\infty} xf(x)\text dx$ 的和为离散型随机变量 $X$ 的数学期望,记为 $E(X)$ 或 $EX$,即 $\displaystyle E(X)=\int_{-\infty}^{+\infty} xf(x)\text dx$

随机变量函数的数学期望:将 $x$ 改为 $g(x)$ :

离散型: $\displaystyle E(g(x))=\sum_k g(x_k)p_k$

连续型: $\displaystyle E(g(x))=\int_{-\infty}^{+\infty} g(x)f(x)\text dx$

性质:

  1. 设 $X$ 为随机变量,则对任意常数 $a, b$ 有 $E(aX+b)=aE(X)+b$
  2. 设 $b$ 为常数,则 $E(b)=b$
  3. 数学期望的线性性质:设 $X,Y$ 为两个随机变量,$a, b$ 为任意常数,有 $E(aX+bY)=aE(X)+bE(Y)$

设 $X_1, X_2, \cdots , X_n$ 为 $n$ 个随机变量,$a_1, a_2, \cdots ,a_n$ 为 $n$ 个常数,有 $\displaystyle E(\sum_{i=1}^n a_iX_i)=\sum_{i=1}^n a_iE(X_i)$

  1. 设随机变量 $X, Y$ 相互独立且数学期望均存在,则 $E(XY)=E(X)E(Y)$

方差

设 $X$ 为随机变量,若 $E{[X-E(X)]^2}$ 存在,则称 $E{[X-E(X)]^2}$ 为 $X$ 的方差,记为 $D(X)$ 或 $DX$,即 $D(X)=E{[X-E(X)]^2}$ 。

同时称 $\sqrt{D(X)}$ 为 $X$ 的标准差或均方差,记为 $\sigma(X)$ ,即 $\sigma(X)=\sqrt{D(X)}$ 。

方差的计算式:$D(X)=E(X2)-[E(X)]2$

性质:

  1. 设 $X$ 为随机变量,则对于任意常数 $a, b$,有 $D(aX+b)=a^2D(X)$

$D(X)=D(-X)$

  1. 设 $b$ 为常数,则 $D(b)=0$
  2. 设 $X_1, X_2, \cdots ,X_n$ 为期望和方差均存在的随机变量,则 $\displaystyle D(\sum_{i=1}^n X_i)=\sum_{i=1}n\sum_{j=1}n {E(X_iX_j)-E(X_i)E(X_j)}$
    $\quad\quad\qquad\displaystyle\ \ \ =\sum_{i=1}nD(X_i)+2\sum_{i=1}\sum_{j=i+1}^n{E(X_iX_j)-E(X_i)E(X_j)}$

$n=2$ 时,有 $D(X+Y)=D(X)+D(Y)+2{E(XY)-E(X)E(Y)}=D(X)+D(Y)+2\cdot \text{cov}(X, Y)$

  1. 设 $X,Y$ 为相互独立的随机变量,则 $D(X+Y)=D(X)+D(Y)$
  2. 设 $X_1, X_2, \cdots ,X_n$ 为期望和方差均存在的相互独立的随机变量,且 $a_1, a_2, \cdots ,a_n$ 为常数,则 $\displaystyle D(\sum_{i=1}^n a_iX_i)=\sum_{i=1}na_i2D(X_i)$

对任何随机变量 $X$, 若它的数学期望 $E(X)$ 和方差 $D(x)$ 都存在,且 $D(X)>0$,则称 $X^\ast={X-E(X)\over \sqrt{D(X)}}$ 为 $X$ 的标准化随机变量

协方差与相关系数

设 $(X, Y)$ 为二维随机变量,若 $E{[X-E(X)][Y-E(Y)]}$ 存在,则称它是随机变量 $X$ 与 $Y$ 的协方差,记为 $\text{cov}(X, Y)$

特殊的,有 $\text{cov}(X, X)=D(X)$

计算式:$\text{cov}(X, Y)=E(XY)-E(X)E(Y)$

性质:

  1. $\text{cov}(X, Y)=\text{cov}(Y, X)$
  2. 若 $a$ 为常数,则 $\text{cov}(X, a)=0$
  3. 若 $a, b$ 为常数,则 $\text{cov}(aX, bY)=ab\cdot \text{cov}(X, Y)$
  4. $\text{cov}(X_1+X_2, Y)=\text{cov}(X_1, Y)+\text{cov}(X_2, Y)$
  5. 若对二维随机变量 $X, Y$ ,有 $D(X\pm Y)=D(X)+D(Y)\pm 2\cdot \text{cov}(X, Y)$

若 $\text{cov}(X, Y)=0$ 则称 $X, Y$ 不相关;
若 $\text{cov}(X, Y)<0$ 则称 $X, Y$ 负相关;
若 $\text{cov}(X, Y)>0$ 则称 $X, Y$ 正相关。

对任意 $n$ 个随机变量 $X_1, X_2, \cdots , X_n$ ,有:

$\displaystyle D(\sum_{i=1}^n X_i)=\sum_{i=1}^n D(X_i)+2\sum_{1\leq i<j\leq n}\text{cov}(X_i, X_j)$

设 $(X, Y)$ 是二维随机变量,若 $D(X)>0,D(Y)>0$,则称 $\text{cov}(X, Y)\over \sqrt{D(X)D(Y)}$ 为随机变量 $X$ 与 $Y$ 的相关系数,记为 $\rho$ 或 $\rho_{XY}$,即 $\displaystyle \rho_{XY}={\text{cov}(X, Y)\over \sqrt{D(X)D(Y)}}$

同时,还有 $\displaystyle \rho_{XY}=E({X-E(X)\over \sqrt{D(X)}}\cdot {Y-E(Y)\over \sqrt{D(Y)}})=E(X^\ast\cdot Y^\ast)$

性质:

  1. $|\rho_{XY}|\leq 1$
  2. $|\rho_{XY}|=1$ 的充要条件是存在常数 $a\neq 0, b$ 使得 $P(Y=aX+b)=1$,即随机变量 $X$ 与 $Y$ 以概率 $1$ 有线性关系

二维正态分布中,$\rho=0$ 时,$X$ 与 $Y$ 相互独立

$\quad\ X$ 与 $Y$ 相互独立
$\Rightarrow X$ 与 $Y$ 不相关
$\Leftrightarrow \rho_{XY}=0$
$\Leftrightarrow\text{cov}(X, Y)=0$
$\Leftrightarrow E(XY)=E(X)E(Y)$
$\Leftrightarrow D(X\pm Y)=D(X)+D(Y)$


极限定理初步

依概率收敛

设 ${X_n}$ 为随机变量序列,$X$ 为随机变量,如果对任意的 $\varepsilon>0$ 有 $\displaystyle \lim_{n\to\infty} P(|X_n-X|<\varepsilon)=1$ ,则称 ${X_n}$ 依概率收敛于 $X$ ,记做 $X_n\stackrel P \longrightarrow X$

大数定律的一般形式

设 ${X_n}$ 为随机变量序列,如果 $E(X_n)(n=1, 2, \cdots)$ 存在,使得对任意 $\varepsilon>0$ 有 $\displaystyle\lim_{n\to\infty} P{|{1\over n}\sum_{i=1}^nX_i-{1\over n}\sum_{i=1}^nE(X_i)|<\varepsilon}=1$ ,即 $\displaystyle {1\over n}\sum_{i=1}^nX_i-{1\over n}\sum_{i=1}^nE(X_i)\stackrel P \longrightarrow0$,则称随机变量序列 ${X_n}$ 服从大数定律

样本均值依概率收敛于期望,即 $\displaystyle {1\over n}\sum_{i=1}^nX_i\stackrel P \longrightarrow E({1\over n}\sum_{i=1}^nX_i)$

伯努利大数定律

  1. 设 $X$ 是 $n$ 次伯努利试验中随机事件 $A$ 发生的次数,$p$ 是每次试验时事件 $A$ 发生的概率
  2. 则对任何 $\varepsilon>0$,有 $\displaystyle\lim_{n\to\infty}P(|{X\over n}-p|<\varepsilon)=1$ ,或 ${X\over n}\stackrel P \longrightarrow p$

切比雪夫大数定律

  1. 设 ${X_n}$ 为两两不相关的随机变量序列
  2. 若每个随机变量 $X_i$ 的方差存在,且有共同的上街,即 $D(X_i)\leq c(c$ 为常数 $),i=1, 2, \cdots$
  3. 则随机变量序列 ${X_n}$ 服从大数定律,即对任何 $\varepsilon>0$ 有 $\displaystyle\lim_{n\to\infty} P(|{1\over n}\sum_{i=1}^nX_i-{1\over n}\sum_{i=1}^nE(X_i)|<\varepsilon)=1$ 或 $\displaystyle {1\over n}\sum_{i=1}^nX_i-{1\over n}\sum_{i=1}^nE(X_i)\stackrel P \longrightarrow0$

辛钦大数定律

  1. 设 ${X_n}$ 为独立同分布随机变量序列
  2. 若每个随机变量 $X_i$ 的数学期望存在,即 $E(X_i)=\mu(i=1, 2, \cdots)$
  3. 则随机变量序列 ${X_n}$ 服从大数定律,即对任何 $\varepsilon>0$ 有 $\displaystyle \lim_{n\to\infty}P{|{1\over n}\sum_{i=1}^n X_i-\mu|<\varepsilon}=1$ 或 $\displaystyle {1\over n}\sum_{i=1}^n X_i\stackrel P \longrightarrow \mu$

独立同分布中心极限定理

  1. 设随机变量 $X_1, X_2, \cdots, X_n,\cdots $ 相互独立同分布
  2. 且数学期望和方差存在:$E(X_i)=\mu, D(X_i)=\sigma^2\neq 0,(i=1, 2, \cdots)$
  3. 则随机变量 $\displaystyle\sum_{i=1}^n X_i\stackrel\cdot\sim N(n\mu, n\sigma^2)(n\to+\infty)$

二项分布中心极限定理

  1. 设 $X$ 为 $n$ 次伯努利试验中事件 $A$ 出现的次数,$p(0<p<1)$ 是每次试验中事件 $A$ 发生的概率,即 $X\sim B(n, p)$
  2. 则随机变量 $\displaystyle \sum_{i=1}^n X_i\stackrel \cdot\sim N(np, np(1-p))$

数理统计的基本概念与抽样分布

总体与样本

  1. 统计学中,把研究问题所设计的对象的全体称为总体
  2. 把总体中的每个成员称为个体
  3. 每次抽取 $n$ 个个体,这 $n$ 个个体 $X_1, X_2, \cdots, X_n$ 就称为总体 $X$ 的一个容量为 $n$ 的样本或子样
  4. 其中样本所包含的个体数量 $n$ 称为样本容量或样本大小

设 $X_1, X_2, \cdots , X_n$ 为总体 $X$ 的一个容量为 $n$ 的样本,若满足:

  1. 独立性:即 $X_1, X_2, \cdots, X_n$ 相互独立
  2. 同分布性:即每一个 $x_i(i=1, 2, \cdots, n)$ 都与总体 $X$ 服从相同的分布,则这样的样本称为简单随机样本,简称样本

统计量

设 $X_1, X_2, \cdots , X_n$ 是总体 $X$ 的样本,$T(X_1, X_2, \cdots, X_n)$ 是样本的实值函数,且不包含任何位置参数,则称 $T(X_1, X_2,\cdots, X_n)$ 为统计量

  1. 统计量 $\displaystyle \bar X={1\over n}\sum_{i=1}^nX_i$ 称为样本的均值
  2. 统计量 $\displaystyle S^2={1\over n-1}\sum_{i=1}^n(X_i-\bar X)^2={1\over n-1}[\sum_{i=1}^n X_i^2-n\bar X^2]$ 称为样本的方差
  3. 统计量 $S=\sqrt{S^2}$ 称为样本的均方差或标准差
  4. 统计量 $\displaystyle A_k={1\over n}\sum_{i=1}nX_ik$ 称为样本的 $k$ 阶原点矩$(k=1, 2, \cdots)$
  5. 统计量 $\displaystyle B_k={1\over n}\sum_{i=1}^n(X_i-\bar X)^k$ 称为样本的 $k$ 阶中心矩$(k=1, 2, \cdots)$

设 $X_1, X_2, \cdots , X_n$ 是来自总体 $X$ 的样本,对应的顺序统计量为 $X_{(1)}\leq X_{(2)}\leq\cdots\leq X_{(n)}$

  1. 统计量 $R=X_{(n)}-X_{(1)}$ 称为样本的极差

  2. 统计量 $M_e=\begin{cases}
    X_{({n+1\over 2})}, n\text{ 是奇数}
    \\{1\over 2}(X_{({n\over 2})}+X_{({{n\over 2}+1})}), n\text{ 是偶数}
    \end{cases}$

经验分布函数

设 $X_1, X_2, \cdots , X_n$ 是来自总体 $X$ 的样本,对应的顺序统计量为 $X_{(1)}\leq X_{(2)}\leq\cdots\leq X_{(n)}$,当给定顺序统计量的观测值 $x_{(1)}\leq x_{(2)}\leq \cdots\leq x_{(n)}$ 时,对任意实数 $x$ ,称下列函数:

$F_n(x)=\begin{cases}
0, x< x_{(1)}
\\{k\over n}, x_{(k)}\leq x< x_{(k+1)}\wedge k=1, 2, \cdots, n-1
\\ 1, x_{(n)}\leq x
\end{cases}$

为总体 $X$ 的经验分布函数

$\chi^2$ 分布

设 $X_1, X_2, \cdots ,X_n$ 为独立同分布的随机变量,且都服从 $N(0, 1)$,则称随机变量 $X=X_12+X_22+\cdots +X_n2=\sum_{i=1}nX_i^2$ 所服从的分布为自由度为 $n$ 的 $\chi^2$ 分布,记作 $X\sim \chi^2(n)$

性质:

  1. 可加性:设 $Y_1\sim \chi^2(m), Y_2\sim \chi^2(n)$,且 $Y_1, Y_2$ 相互独立,则 $Y_1+Y_2\sim \chi^2(m+n)$
  2. 若 $X\sim \chi^2(n)$,则 $E(X)=n, D(X)=2n$

$t$ 分布

设随机变量 $X\sim N(0, 1), Y\sim \chi^2(n)$ 且 $X, Y$ 相互独立,则称随机变量 $\displaystyle T={X\over \sqrt{Y/n}}$ 所服从的分布为自由度为 $n$ 的 $t$ 分布,记作 $T\sim t(n)$

性质:

  1. 设 $T\sim t(n)(n>1)$ 则 $E(T)=0$
  2. 设 $T\sim t(n)$,当 $n$ 较大时,$T\stackrel \cdot\sim N(0, 1)$

$F$ 分布

设随机变量 $X\sim\chi^2(m), T\sim \chi^2(n)$ ,且 $X, Y$ 相互独立,则称随机变量 $F={X/m\over Y/n}$ 所服从的分布为自由度为 $m, n$ 的 $F$ 分布,记作 $F\sim F(m, n)$

性质:

  1. 若 $X\sim F(m, n)$ ,则 ${1\over X}\sim F(n, m)$
  2. 若 $X\sim t(n)$,则 $X^2\sim F(1, n)$

概率分布的分位点

$x_\alpha$ 为概率的上 $\alpha$ 分位点,当且仅当 $P(X>x_\alpha)=\alpha$

  1. 正态分布的分位点满足 $u_{1-\alpha}=-u_\alpha$
  2. $t_{1-\alpha}(n)=-t_\alpha(n)$
  3. $\displaystyle F_\alpha(m, n)={1\over F_{1-\alpha}(n, m)}$

正态总体的抽样分布

设 $X_1, X_2, \cdots , X_n$ 是来自正态总体 $X\sim N(\mu, \sigma^2)$ 的样本,则

  1. $\displaystyle \bar X\sim N(\mu, {\sigma^2\over n})$
  2. $\displaystyle {(n-1)S^2\over \sigma^2}\sim \chi^2(n-1)$
  3. $\bar X$ 与 $S^2$ 相互独立
  4. $\displaystyle {\sqrt n(\bar X-\mu)\over S}\sim t(n-1)$

推论:

  1. $\displaystyle {\bar X-\mu\over \sigma/\sqrt n}\sim N(0, 1)$
  2. $\displaystyle {\bar X-\mu\over S/\sqrt n}\sim t(n-1)$
  3. $\displaystyle {1\over \sigma2}\sum_{i=1}n(X_i-\bar X)2={(n-1)S2\over \sigma^2}\sim \chi^2(n-1)$
  4. $\displaystyle {1\over \sigma2}\sum_{i=1}n(X_i-\mu)^2\sim \chi^2(n)$

设 $X_1, X_2, \cdots , X_m$ 是来自正态总体 $X\sim N(\mu_1, \sigma_1^2)$ 的样本,$Y_1, Y_2, \cdots , Y_n$ 是来自正态总体 $Y\sim N(\mu_2, \sigma_2^2)$ 的样本,且 $X, Y$ 相互独立

  1. $\bar X-\bar Y\sim N(\mu_1-\mu_2, {\sigma_1^2\over m}+{\sigma_2^2\over n})$
  2. $\displaystyle {S_12/\sigma_12\over S_2^2/ \sigma_2^2}\sim F(m-1, n-1)$

参数估计

矩法估计

  1. 计算总体分布的 $r$ 阶原点矩 $E(X^r)$,记为 $E(X^r)=g_r(\theta), r=1, 2, \cdots, k$
  2. 近似替换,即用样本 $r$ 阶原点矩替换成总体 $r$ 阶原点矩,列出方程 $\displaystyle g_r(\theta)\stackrel \Delta ={1\over n}\sum_{i=1}^n X_i^r(r=1, 2, \cdots, k)$
  3. 解此方程得 $\theta=h(X_1, X_2, \cdots ,X_n)$

则以 $h(X_1, X_2, \cdots ,X_n)$ 作为 $\theta$ 的估计量 $\hat\theta$,并称 $\hat\theta =h(X_1, X_2, \cdots ,X_n)$ 为 $\theta$ 的矩估计量,而称 $h(X_1, X_2, \cdots ,X_n)$ 为 $\theta$ 的矩法估计值

极大似然估计

设总体 $X$ 的概率分布为 $f(x; \theta)$,其中 $\theta=(\theta_1, \theta_2, \cdots ,\theta_k)$ 是未知量数 $X_1, X_2, \cdots, X_n$ 是总体 $X$ 的样本,则称 $X_1, X_2, \cdots, X_n$ 的联合概率分布

$\displaystyle L(x_1, x_2, \cdots , x_n; \theta)=\prod_{i=1}^n f(x_i; \theta)$

为样本的似然函数,简记为 $L(\theta)$

若有 $\hat\theta \in \Theta$,使得 $\displaystyle L(\hat\theta )=\sup_{\theta\in\Theta}L(\theta)$,则称 $\hat\theta=\hat\theta(x_1, x_2, \cdots, x_n)$ 为 $\theta$ 的极大似然估计值,而称对应的统计量 $\hat\theta=\hat\theta(X_1, X_2, \cdots, X_n)$ 为 $\theta$ 的极大似然估计量

一般步骤如下:

  1. 根据总体 $X$ 的分布 $f(x; \theta)$ 写出似然函数 $L(\theta)$
  2. 直接求解 $L(\theta)$ 最大值;或对似然函数取对数 $\displaystyle \ln L(\theta)=\sum_{i=1}^n \ln f(x_i; \theta)$,求解似然方程 $\displaystyle {\text d\ln L\over \text d\theta}=0$

估计量的评价标准

设 $\hat\theta=\hat\theta(X_1, X_2, \cdots, X_n)$ 是未知参数 $\theta$ 的估计量,$\theta\in \Theta$。若 $E(\hat\theta)=\theta$,则称 $\hat\theta=\hat\theta(X_1, X_2, \cdots, X_n)$ 是 $\theta$ 的无偏估计。如果 $E(\hat\theta)\neq\theta$,则 $E(\hat\theta)-\theta$ 称为估计量 $\hat\theta$ 的偏差

$E(S)=\sigma^2$

若 $\displaystyle \lim_{n\to\infty }E(\hat \theta)=\theta$,则称 $\hat\theta=\hat\theta(X_1, X_2, \cdots, X_n)$ 是 $\theta$ 的渐进无偏估计量

设 $\hat\theta_1(X_1, X_2, \cdots, X_n), \hat\theta_2(X_1, X_2, \cdots, X_n)$ 均是参数 $\theta$ 的两个无偏估计量,若 $D(\hat\theta_1)<D(\hat\theta_2)$ 则称估计量 $\hat\theta_1$ 比 $\hat\theta_2$ 有效

设 $\hat\theta_n$ 是 $\theta$ 的估计量,若对任意的 $\varepsilon>0$,有 $\displaystyle \lim_{n\to\infty} P(|\hat\theta_n-\theta|<\varepsilon)=1$ 恒成立,则称 $\hat\theta_n$ 是 $\theta$ 的一致估计量,也可以说估计量 $\hat\theta_n$ 具有一致性,记为 $\hat\theta_n \stackrel P\longrightarrow \theta$

区间估计

设总体 $X$ 的分布函数是 $F(x; \theta)$,其中 $\theta$ 是未知参数,$X_1, X_2, \cdots, X_n$ 是从总体 $X$ 中抽取的样本,对于给定的 $\alpha(0<\alpha<1)$,构造统计量 $\hat\theta_1(X_1, X_2, \cdots, X_n), \hat\theta_2(X_1, X_2, \cdots, X_n)$。如果满足 $P(\hat\theta_1\leq \theta\leq \hat\theta_2)=1-\alpha$,则称随机区间 $(\hat\theta_1, \hat\theta_2)$ 为参数 $\theta$ 的置信度为 $1-\alpha$ 的双侧置信区间(简称置信区间),其中 $\hat\theta_1,\hat\theta_2$ 分别称为置信下限和置信上限,$1-\alpha$ 称为置信度或置信水平。

单个正态总体参数的置信区间

  1. 总体方差 $\sigma^2$ 已知时,总体均值 $\mu$ 的置信区间:

由 $\displaystyle {\bar X-\mu\over \sigma/\sqrt n}\sim N(0, 1)$

$\mu$ 的双侧置信区间为 $\displaystyle (\bar X-u_{\alpha/2}{\sigma\over \sqrt n}, \bar X+u_{\alpha/2}{\sigma\over \sqrt n})$

  1. 总体方差 $\sigma^2$ 未知时,总体均值 $\mu$ 的置信区间:

由 $\displaystyle {{\bar X}-\mu\over S/\sqrt n}\sim t(n-1)$

$\mu$ 的双侧置信区间为 $\displaystyle (\bar X-t_{\alpha/2}(n-1){S\over \sqrt n}, \bar X+t_{\alpha/2}(n-1){S\over \sqrt n})$

  1. 总体方差 $\mu$ 已知时,总体均值 $\sigma^2$ 的置信区间:

由 $\displaystyle {1\over \sigma2}\sum_{i=1}n(X_i-\mu )^2\sim \chi^2(n)$

$\sigma^2$ 的双侧置信区间为 $\displaystyle ({\sum_{i=1}n(X_i-\mu)2\over \chi^2_{\alpha/2}(n)}, {\sum_{i=1}n(X_i-\mu)2\over \chi^2_{1-\alpha/2}(n)})$

$\sigma$ 的双侧置信区间为 $\displaystyle (\sqrt {\sum_{i=1}n(X_i-\mu)2\over \chi^2_{\alpha/2}(n)}, \sqrt {\sum_{i=1}n(X_i-\mu)2\over \chi^2_{1-\alpha/2}(n)})$

  1. 总体方差 $\mu$ 未知时,总体均值 $\sigma^2$ 的置信区间:

由 $\displaystyle {n-1\over \sigma2}S2={1\over \sigma2}\sum_{i=1}n(X_i-\bar X)^2\sim \chi^2(n-1)$

$\sigma^2$ 的双侧置信区间为 $\displaystyle ({(n-1)S^2\over \chi^2_{\alpha/2}(n-1)}, {(n-1)S^2\over \chi^2_{1-\alpha/2}(n-1)})$

$\sigma$ 的双侧置信区间为 $\displaystyle (\sqrt {(n-1)S^2\over \chi^2_{\alpha/2}(n-1)}, \sqrt {(n-1)S^2\over \chi^2_{1-\alpha/2}(n-1)})$

置信区间长度与置信度的关系

样本容量一定时,置信区间长度 $l$ 的变小与置信度 $(1-\alpha)$ 的增大不可能同时成立。

证明:(以 $\sigma^2$ 已知时,$\mu$ 的双侧置信区间为例)

$(1-\alpha)$ 增大时,$\alpha$ 减小,$u_{\alpha/ 2}$ 增大

双侧置信区间长度 $l=2\cdot {\sigma\over \sqrt n}u_{\alpha/2}$ 增大

同理,仅当 $(1-\alpha)$ 减小时,$l$ 变小


假设检验

假设检验的基本思想

关于总体的假设通常的两个相互对立的假设,我们把需要检验是否为真的假设称为原假设或零假设,用 $H_0$ 表示,与之对立的另一个假设称为备择假设或对立假设,用 $H_1$ 表示。

假设检验的基本思想是带有某种概率性质的反证法,基于“小概率事件”原理。

“小概率事件原理”:一个事件如果发生的概率很小的话,那么它在一次试验中是几乎不可能发生的

构造小概率事件 $A$ :选一个较小的概率 $\alpha$ 称之为检验的显著水平,寻找 $a, b$ 使得检验统计量 $T$ 满足 $P((T_0<a)\cup T_0>b))\leq \alpha$

在 $H_0$ 成立的条件下,事件 $A={(T_0<a)\cup (T_0>b)}$ 是小概率事件

通常把拒绝原假设的区域 $W$ 称为关于原假设 $H_0$ 的拒绝域,简称拒绝域;而把接受原假设的区域称为关于原假设 $H_0$ 的接受与,简称接受域。把区间端点称为临界值。

第一类错误:“弃真”错误:由于样本的随机性,检验统计量的观测值落入了拒绝域,从而拒绝了正确的原假设 $H_0$。其概率 $P($ 拒绝 $H_0\mid H_0$ 为真 $)=\beta_1$

第二类错误:“取伪”错误:由于样本的随机性,检验统计量的观测值落入了接受域,从而接收了错误的原假设 $H_0$。其概率 $P($ 接受 $H_0\mid H_0$ 为假 $)=\beta_2$

当样本容量 $n$ 固定时,要使 $\beta_1, \beta_2$ 同时变小是不可能的

当样本容量 $n$ 固定时,着重控制犯第一类错误的概率,使之不超过某一给定值 $\alpha$ ,称之为显著性水平,即 $P($ 拒绝 $H_0\mid H_0$ 为真 $)=\beta_1\leq \alpha$

单个正态总体参数的假设检验

设给定的显著水平为 $\alpha$

  1. 总体方差 $\sigma^2$ 已知时,总体均值 $\mu$ 的假设检验

由 $\displaystyle T_0={\bar X-\mu\over \sigma/\sqrt n}\sim N(0, 1)$

拒绝域为 $W={|T_0|>u_{\alpha/2}}$

$U$ 检验

  1. 总体方差 $\sigma^2$ 未知时,总体均值 $\mu$ 的假设检验

由 $\displaystyle T_0={{\bar X}-\mu\over S/\sqrt n}\sim t(n-1)$

拒绝域为 $W={|T_0|>t_{\alpha/2}(n-1)}$

$t$ 检验

  1. 总体均值 $\mu$ 已知时,总体方差 $\sigma^2$ 的假设检验

由 $\displaystyle T_0={1\over \sigma2}\sum_{i=1}n(X_i-\mu )^2\sim \chi^2(n)$

拒绝域为 $W={|T_0|>\chi^2_{\alpha/2}(n-1)}$

$\chi^2$ 检验

  1. 总体均值 $\mu$ 未知时,总体方差 $\sigma^2$ 的假设检验

由 $\displaystyle T_0={n-1\over \sigma2}S2={1\over \sigma2}\sum_{i=1}n(X_i-\bar X)^2\sim \chi^2(n-1)$

拒绝域为 $W={|T_0|>\chi^2_{\alpha/2}(n)}$

$\chi^2$ 检验