收敛理论

发布时间 2024-01-06 14:21:08作者: DennyQi

点态收敛\(\newcommand{\F}{\mathcal{F}}\newcommand{\B}{\mathcal{B}}\newcommand{\Var}{\text{Var}}\newcommand{\E}{\mathbb{E}}\)

在定义连续随机变量的期望时候,我们是用一列离散的随机变量期望的极限来定义的。一般地,我们也可以定义一列随机变量的极限,这个极限也是一个随机变量,而我们知道随机变量本质上是一个函数,这个极限过程正是数学分析中的函数列的收敛。我们所说的随机变量的极限就是随机变量列的点态收敛。而在概率论中,我们更多时候会用almost surely(a.s.)点态收敛:只要求随机变量在一个测度为1的集合上点态收敛,也即只在一个零测集上不收敛。

关于点态收敛要讨论的一个最重要的问题就是极限和期望的顺序交换问题——是否成立\(\lim\limits_{n \to \infty} \E[X_n]=\E[\lim\limits_{n \to \infty} X_n]\)?(例如在Moment Generating Function一节中我们就默认了这一事实成立而没有加以验证)。

首先我们在\(([0,1],\B([0,1]),P_{\text{Leb}})\)上有反例\(X_n=n \cdot \mathbb{1}_{[\frac{1}{n},\frac{2}{n}]}\)来说明这一事实并不总是成立。对于任意固定的\(n\)\(\E[X_n]\)都为1;而\(\lim\limits_{n \to \infty}X_n\)却a.s.等于0。因此\(\lim\limits_{n \to \infty} \E[X_n]=1\neq 0=\E[\lim\limits_{n \to \infty} X_n]\)。那么这一事实在何时成立呢?下面我们给出几个关于充分条件的定理(证明略):

第一个充分条件称为Monotone Convergence Theorem(MCT,单调收敛定理),它指出:如果随机变量列\(X_n\)非负且递增并收敛到\(X\)(以上条件都只需a.s.成立),那么极限和期望可交换:\(\lim\limits_{n \to \infty} \E[X_n]=\E[\lim\limits_{n \to \infty} X_n]=\E[X]\)

第二个充分条件称为Dominated Convergence Theorem(DCT,控制收敛定理),它指出:如果随机变量列\(X_n\)收敛到\(X\)(a.s.),并且所有的\(X_n\)都能被一个\(\E[Y]\)存在的随机变量\(Y\)\(|X_n|\leq Y\)的方式控制(a.s.),那么极限和期望可交换:\(\lim\limits_{n \to \infty} \E[X_n]=\E[\lim\limits_{n \to \infty} X_n]=\E[X]\)。特别地,如果\(Y\)取常数函数,那么\(|X_n|\leq Y\)恒成立等价于\(\{X_n\}\)有界,这就得到推论Bounded Convergence Theorem(BCT,有界收敛定理)

更多收敛以及强弱关系

就像函数不止点态收敛一种收敛方式一样,点态收敛(a.s.收敛)也不是定义随机变量收敛的唯一方式。一般而言,点态收敛是最强的收敛条件了,但我们很多时候我们需要更弱的收敛条件,因为在许多重要的定理中以强的形式收敛的结论往往是不成立的,只有在更弱时成立。

下面我们依次给出依概率收敛、\(L_p\)收敛、依分布收敛的定义:

如果\(\forall \varepsilon>0,\lim\limits_{n \to \infty}\Pr[|X_n-X|>\varepsilon]=0\),称\(X\)依概率收敛\(X\),记为\(X_n \stackrel{p}{\to} x\),表示当\(n\)充分大时,\(X_n\)\(X\)上函数值不同的样本点测度趋向0;

如果\(\lim\limits_{n \to \infty}\E[|X_n-X|^p]=0\),称\(X\) \(L_p\)收敛到\(X\),记为\(X_n \stackrel{L_p}{\to} X\),表示\(p\)阶矩收敛到同一个值。特别的,当\(p=1\)时为\(L_1\)收敛,它们的收敛到相同的期望;

如果\(\lim\limits_{n \to \infty}F_n(x)=F(x)\),称\(X\)依分布收敛收敛到\(X\),记为\(X_n \stackrel{d}{\to} x\),表示它们的分布函数收敛到同一个值。

可以证明,\(r>s\)时有\(L_r \implies L_s\),也即更高阶的矩收敛可以推出更低阶的。其中最低阶的\(L_1 \implies p\),这说明\(L_p\)收敛比依概率收敛更强。同时,\(a.s. \implies p\),几乎处处的点态收敛可以推出依概率收敛。\(p \implies d\),依概率收敛可以推出依分布收敛。可见依分布收敛是最弱的要求。(以上的推出都是不可逆的,构造反例可以说明这一点。)并且我们观察到,\(a.s.\)\(L_1\)之间的强弱不能直接比较,而这两者正好是\(a.s.\)收敛与期望相等之间的关系——正是我们之前讨论的极限与期望的可交换问题,我们已经知道在特定的充分条件下交换才是成立的。

上下极限

虽然有反例说明依概率收敛不能推出\(a.s.\)收敛,但我们可以证明依概率收敛可以推出存在子列几乎处处收敛。为了证明这一点,首先要定义集合列的极限。如果把集合的包含关系看作序关系,那么对于单调的集合列就可以定义极限:对于\(A_{i} \subseteq A_{i+1}\),定义\(\lim\limits_{n \to \infty} A_n=\bigcup\limits_{i \geq 1}A_i\)。同理,对于\(A_{i} \supseteq A_{i+1}\),定义\(\lim\limits_{n \to \infty} A_n=\bigcap\limits_{i \geq 1}A_i\)。由于是单调的,我们也用上确界或下确界来表示极限。现在,仿照数列的上下极限,定义上极限\(\lim \sup_n A_n=\lim\limits_{n \to \infty}(\sup\limits_{k \geq n}A_k)=\bigcap\limits_{n \geq 1}\bigcup\limits_{k \geq n}A_k\),下极限\(\lim \inf_n A_n=\lim\limits_{n \to \infty}(\inf\limits_{k \geq n}A_k)=\bigcup\limits_{n \geq 1}\bigcap\limits_{k \geq n}A_k\)。上下极限也表示一个集合,其中上极限表示所有在\(\{A_i\}\)中出现次数为无数次的元素构成的集合(如果出现无数次,那么对任意的\(n\)都会落在\(\sup\limits_{k \geq n}A_k\)里,因此最终落在\(\lim \sup_nA_n\)中;否则一定存在一个\(n\)使得它不在\(\sup\limits_{k \geq n}A_k\)里,因此最终不在上极限中);下极限表示所有不出现次数为有限次的元素构成的集合。

一列事件就是一列集合。我们可以根据定义化简一列事件的上极限的概率:\(\Pr[\lim\sup_n A_n]=\Pr[\lim\limits_{n \to \infty} \bigcup \limits_{k \geq n}A_k]\),根据概率测度的连续性\(=\lim\limits_{n \to \infty}\Pr[\bigcup\limits_{k \geq n}A_k]=\lim\limits_{n \to \infty}\sum\limits_{k \geq n}\Pr[A_k]\)。可见,如果\(\sum\limits_{k\geq 1}\Pr[A_k]<+\infty\),那么一定有\(\Pr[\lim\sup_nA_n]\)。这就是Borel-Cantelli定理,它指出如果一列事件\(A_1,A_2,\cdots\)满足\(\sum\limits_{n \geq 1}\Pr[A_n]<+\infty\),则\(\Pr[\lim\sup_n A_n]=0\)。也即如果所有这些事件发生的概率全部相加是收敛的,那么在这列事件中出现无穷多次的样本点是零测集。它的逆命题不一定成立,然而我们可以验证当\(A_n\)相互独立时,逆命题成立。此时\(\sum\limits_{n \geq 1}\Pr[A_n]<+\infty \iff \Pr[\lim\sup_n A_n]=0\)。我们还可以证明,\(\sum\limits_{n \geq 1}\Pr[A_n]=+\infty \implies \Pr[\lim\sup_n A_n]=1\),这意味着\(\Pr[\lim\sup_nA_n]\)只能取0或1(我们之后将会用Kolmogorov 0-1 Law这个更高的观点再次看到这个问题),因此也有\(\sum\limits_{n \geq 1}\Pr[A_n]=+\infty \iff \Pr[\lim\sup_n A_n]=1\)

根据Borel-Cantelli,我们从一个依概率收敛的随机变量列中挑出一列\(n_m\)使得\(\Pr[|X_{n_m}-X|>\dfrac{1}{m}]<\dfrac{1}{2^m}\),令\(A_m=\{\omega\mid |X_{n_m}(\omega)-X(\omega)|>\dfrac{1}{m}\}\),这样就有\(\sum\limits_{m\geq 1}\Pr[A_m]<\sum\limits_{m \geq 1}\dfrac{1}{2^m}<+\infty\),因此\(\Pr[\lim\sup_m A_m]=0\)。在全集中去掉这个零测集以后,我们可以证出点态收敛。因此我们证明了依概率收敛的随机变量列中存在一个a.s.点态收敛的子列。

有了这个定理以后,我们就可以把Dominated Convergence Theorem中的几乎处处收敛放弱到“依概率收敛”。原因是,如果\(\E[X_n]\)不收敛到\(\E[X]\),那么由于依概率收敛,它存在子列收敛到\(a \neq \E[X]\)。而依概率收敛还意味着其任意子序列依概率收敛,因此上面的子序列的子序列必须\(a.s.\)收敛到\(X\),它的期望必须收敛到\(\E[X]\),矛盾。