Home
Toggle Proofs
第五章 极限定理
大数定律
5.1.1 Definition: 大数定律
若$\xi_1, \xi_2, \cdots, \xi_n, \cdots$ 是随机变量序列,令
$$\eta_n = \frac{\xi_1 + \xi_2 + \cdots + \xi_n}{n}$$
如果存在这样的一个常数序列$a_1, a_2, \cdots, a_n, \cdots$ ,对任意的$\varepsilon > 0$ ,恒有
$$\lim_{n \to \infty} P\left\{ \left| \eta_n - a_n \right| < \varepsilon\right\} = 1$$
则称序列$\{\xi_n\}$ 服从大数定律(或大数法则)。
Definition: 中心极限定理
若独立随机变量序列 $\xi_1, \xi_2, \cdots, \xi_n, \cdots$ 的标准化和 $\zeta_n$ 满足
$$\begin{gathered} \zeta_n = \frac{\sum_{i=1}^n \xi_i - \sum_{i=1}^n E\xi_i}{\sqrt{\sum_{i=1}^n D\xi_i}} \\ \lim_{n \to \infty} P\{\zeta_n < x\} = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{x} e^{-t^2/2} \, dt \end{gathered}$$
则我们称$\{\xi_i\}$ 服从中心极限定理(central limit theorem)。
Theorem: 切比雪夫大数定律
设$\xi_1, \xi_2, \cdots, \xi_n, \cdots$ 是由两两不相关的随机变量所构成的序列,每一随机变量都有有限的方差,并且它们有公共上界
$$D\xi_1 \leq C, \quad D\xi_2 \leq C, \quad \cdots, \quad D\xi_n \leq C, \cdots$$
则对任意的$\varepsilon > 0$ ,皆有
$$\lim_{n \to \infty} P\left\{\left|\frac{1}{n} \sum_{k=1}^n \xi_k - \frac{1}{n} \sum_{k=1}^n E\xi_k\right| < \varepsilon\right\} = 1$$
Proof:
因为 \(\{\xi_k\}\) 两两不相关,故
\[D\left(\frac{1}{n} \sum_{k=1}^n \xi_k\right) = \frac{1}{n^2} \sum_{k=1}^n D\xi_k \leq \frac{C}{n}\]
再由切比雪夫不等式 得到
\[P\left\{\left|\frac{1}{n} \sum_{k=1}^n \xi_k - \frac{1}{n} \sum_{k=1}^n E\xi_k\right| < \varepsilon\right\} \geq 1 - \frac{D\left(\frac{1}{n} \sum_{k=1}^n \xi_k\right)}{\varepsilon^2} \geq 1 - \frac{C}{n\varepsilon^2}\]
所以
\[1 \geq P\left\{\left|\frac{1}{n} \sum_{k=1}^n \xi_k - \frac{1}{n} \sum_{k=1}^n E\xi_k\right| < \varepsilon\right\} \geq 1 - \frac{C}{n\varepsilon^2}\]
于是,当 \(n \to \infty\) 时有上不等式成立,因此定理得证。
Theorem: 马尔可夫大数定律
对于随机变量序列$\xi_1, \xi_2, \cdots, \xi_n, \cdots$ ,若
$$D\left(\frac{1}{n} \sum_{k=1}^n \xi_k\right) \rightarrow 0$$
成立,则对任意$\varepsilon > 0$ ,均有切比雪夫大数定律成立。
切比雪夫大数定律显然可由马尔可夫大数定律推出;更重要的是马尔可夫大数定律已经没有任何关于独立性的假定。
Theorem: 伯努利大数定律
设$\mu_n$ 是$n$ 次伯努利试验中事件$A$ 出现的次数,而$p$ 是事件$A$ 在每次试验中出现的概率,则对任意$\varepsilon > 0$ ,都有
$$\lim_{n \to \infty} P\left\{ \left| \mu_n - p \right| < \varepsilon \right\} = 1$$
Proof:
定义随机变量$\xi$ ,则
$$E\xi = p, \quad D\xi = pq \leqslant \frac{1}{4}$$
而
$$\frac{1}{n} \sum_{k=1}^n \xi_k - \frac{1}{n} \sum_{k=1}^n E\xi_k = \frac{\mu_n}{n} - p$$
故由切比雪夫大数定律立刻推出伯努利大数定律。
Theorem: 泊松大数定律
如果在一个独立试验序列中,事件$A$ 在第$k$ 次试验中出现的概率等于$p_k$ ,以$\mu_n$ 记在前$n$ 次试验中事件$A$ 出现的次数,则对任意$\varepsilon > 0$ ,都有
$$\lim_{n \to \infty} P\left\{ \left|\frac{\mu_n}{n} - \frac{p_1 + p_2 + \cdots + p_n}{n}\right| < \varepsilon\right\} = 1$$
Proof:
$$E\xi_k = p_k, \quad D\xi_k = p_k(1 - p_k) \leqslant \frac{1}{4}$$
再用切比雪夫大数定律立刻可以推出结论。
5.1.1 Theorem: 棣莫弗-拉普拉斯定理
若$\mu_n$ 是$n$ 次伯努利试验中事件$A$ 出现的次数,$0 < p < 1$ ,则对任意有限区间$[a, b]$ :
(i) 当$a \leq x_k = \frac{k - np}{\sqrt{npq}} \leq b$ 及$n \to \infty$ 时,一致地有
$$P\{\mu_n = k\} \div \left(\frac{1}{\sqrt{npq}} \cdot \frac{1}{\sqrt{2\pi}} e^{-\frac{1}{2}x_k^2}\right) \to 1$$
(ii) 当$n \to \infty$ 时,一致地有
$$P\left\{a \leq \frac{\mu_n - np}{\sqrt{npq}} < b\right\} \to \int_a^b \varphi(x) dx$$
其中$\varphi(x) = \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} \quad (-\infty < x < \infty)$ 。
Proof:
先证局部极限定理 , 我们将给出一个上比更为精确的渐近式.
因 $x_k$ 只能在有限区间 $[a, b]$ 中取值,故当 $n\rightarrow\infty$ 时,
$$k=n p+x_k\sqrt{n p q}\rightarrow\infty$$
$$j\equiv n-k=n q-x_k\sqrt{n p q}\rightarrow\infty$$
由斯特林(Stirling)公式:
$$m!=\sqrt{2\pi m} m^m e^{-m} e^{\theta m}\left(0<\theta_m<\frac{1}{12 m}\right)$$
可知
$$\begin{align*} P\left\{\mu_n=k\right\}&=\frac{n!}{k! j!} p^kq^j\\ &=\frac{\sqrt{2\pi n} n^n e^{-n}}{\sqrt{2\pi k} k^k e^{-k}\sqrt{2\pi j} j^j e^{-j}} p^kq^je^{\theta_n-\theta_k-\theta_j}\\ &=\frac{1}{\sqrt{2\pi}\sqrt{n p q}}\left(\frac{n p}{k}\right)^{k+\frac{1}{2}}\left(\frac{n q}{n-k}\right)^{n-k+\frac{1}{2}} e^{\theta} \end{align*}$$
其中 $\theta=\theta_n-\theta_k-\theta_{n-k}$ , 因此
$$|\theta|<\frac{1}{12}\left(\frac{1}{n}+\frac{1}{k}+\frac{1}{n-k}\right)$$
$$\frac{k}{n p}=1+x_k\sqrt{\frac{q}{n p}},\frac{n-k}{n q}=1-x_k\sqrt{\frac{p}{n q}}$$
我们将利用展开式
$$\ln(1+x)=x-\frac{x^2}{2}+\frac{x^3}{3}-\frac{x^4}{4}+\cdots$$
来对它们进行估计. 这个展开式当 $-1<x\leqslant 1$ 时收敛, 但只有对绝对值很小的那种 $x$ 值才收敛得快. 现在, 当 $n$ 充分大时, $x_k\sqrt{np}$ 及 $\sqrt{\frac{p}{nq}}$ 都很小(因此, 当 $p=0$ 及 $p=1$ 时不能用; 此外, 当 $p$ 或 $q$ 很小时, 渐近展开式引起的误差也较大, 这时我们已推荐用泊松逼近公式). 所以
$$\begin{align*} \ln\left(\sqrt{2\pi n p q} P\left\{\mu_n=k\right\}\right) &=\theta-\left(k+\frac{1}{2}\right)\ln\frac{k}{n p}-\left(n-k+\frac{1}{2}\right)\ln\frac{n-k}{n q} \\ &=\theta-\left(n p+x_{k}\sqrt{n p q}+\frac{1}{2}\right)\ln\left(1+x_{k}\sqrt{\frac{q}{n p}}\right) \\ &-\left(n q-x_{k}\sqrt{n p q}+\frac{1}{2}\right)\ln\left(1-x_{k}\sqrt{\frac{p}{n q}}\right) \\ &=\theta-\left(n p+x_{k}\sqrt{n p q}+\frac{1}{2}\right) \left( x_{k}\sqrt{\frac{q}{n p}}-\frac{x_{k}^{2} q}{2 n p}+\frac{x_{k}^{3} q\sqrt{n p q}}{3 n^{2} p^{2}}-\frac{x_{k}^{4} q^{2}}{4 n^{2} p^{2}}+\cdots \right) \\ &-\left(n q-x_{k}\sqrt{n p q}+\frac{1}{2}\right) \cdot\left(-x_{k}\sqrt{\frac{p}{n q}}-\frac{x_{k}^{2} p}{2 n q}-\frac{x_{k}^{3} p\sqrt{n p q}}{3 n^{2} q^{2}}-\frac{x_{k}^{4} p^{2}}{4 n^{2} q^{2}}+\cdots\right)\\ &=\theta-\frac{x_{k}^{2}}{2}+\frac{q-p}{6\sqrt{n p q}}\left(x_{k}^{3}-3 x_{k}\right) + \frac{1}{12 n p q}\left[3\left(p^{2}+q^{2}\right) x_{k}^{2}-\left(p^{3}+q^{3}\right) x_{k}^{4}\right]+O\left(\frac{1}{n}\right) \end{align*}$$
因此
$$\begin{align*} P\{\mu_n = k\} &= \frac{1}{\sqrt{2\pi}} \cdot \frac{1}{\sqrt{npq}} \exp\left\{ -\frac{x_k^2}{2} + \frac{(q-p)(x_k^3 - 3x_k)}{6\sqrt{npq}} + O\left(\frac{1}{n}\right) \right\} \\ &= \frac{1}{\sqrt{2\pi}} \cdot \frac{1}{\sqrt{npq}} \exp\left\{-\frac{x_k^2}{2}\right\} \exp \left\{ \frac{(q-p)(x_k^3 - 3x_k)}{6\sqrt{npq}} + O\left(\frac{1}{n}\right) \right\} \end{align*}$$
取其第一项即得证明中的等式,因此我们已证得了局部极限定理。显然,我们得到了更精确的估计式。又知当 $p=q$ 及 $x_k^3 - 3x_k = 0$ 时,近似效果尤佳。
下面转入证明积分极限定理 .
$$\begin{align*} & P\left\{a\leqslant\frac{\mu_n-n p}{\sqrt{n p q}}<b\right\}\\ &=P\left\{n p+a\sqrt{n p q}\leqslant\mu_n<n p+b\sqrt{n p q}\right\}\\ &=\sum_{k=k_1}^{k_2} P\left\{\mu_n=k\right\} \end{align*}$$
上式中 $k_1$ 为不小于 $n p+a\sqrt{n p q}$ 的最小整数, $k_2$ 为小于 $n p+b\sqrt{n p q}$ 的最大整数,由局部极限定理知当 $n$ 充分大时,对任给 $\varepsilon>0$ , 有
$$P\left\{\mu_n=k\right\}=\frac{1}{\sqrt{n p q}}\left(\varphi\left(x_k\right)+\varepsilon_k\right),\left|\varepsilon_k\right|<\varepsilon \left(k=k_1, k_1+1,\cdots, k_2\right)$$
代入前式得到
$$\begin{align*} &P\left\{a\leqslant\frac{\mu_n-n p}{\sqrt{n p q}}<b\right\}\\ &=\sum_{k=k_1}^{k_2}\frac{1}{\sqrt{n p q}}\varphi\left(x_k\right)+\sum_{k=k_1}^{k_2}\frac{\varepsilon_k}{\sqrt{n p q}} \end{align*}$$
因为有
$$\left|\sum_{k=k_1}^{k_2}\frac{\varepsilon_k}{\sqrt{n p q}}\right|\leqslant\frac{1}{\sqrt{n p q}}\left(k_2-k_1+1\right)\varepsilon\leqslant\frac{(b-a)\sqrt{n p q}+1}{\sqrt{n p q}}\varepsilon$$
故当 $n\rightarrow\infty$ 时,注意 $x_k$ 的增量为 $\frac{1}{\sqrt{n p q}}$ , 就得到
$$P\left\{a\leqslant\frac{\mu_n-n p}{\sqrt{n p q}}<b\right\}\rightarrow\int_a^b\varphi(x) d WW$$
由积分极限定理
$$\begin{align*} P\left\{\left|\frac{\mu_n}{n}-p\right|<\varepsilon\right\} &=P\left\{-\varepsilon < \sqrt{\frac{n}{pq}}\frac{\mu_n-np}{\sqrt{npq}}<\varepsilon\sqrt{\frac{n}{pq}}\right\}\\ &=\Phi\left(\varepsilon\sqrt{\frac{n}{pq}}\right)-\Phi\left(-\varepsilon\sqrt{\frac{n}{pq}}\right)=2\Phi\left(\varepsilon\sqrt{\frac{n}{pq}}\right)-1 \end{align*}$$
频率估计概率的三类问题:
已知实验次数$n$ ,发生概率$p$ ,误差区间$\varepsilon$ ,求置信度 $\beta$ ;
求解的是实验的可信度,利用正态分布密度函数查表即可。
已知发生概率$p$ ,置信度$\beta$ ,误差区间$\varepsilon$ ,求实验次数$n$ ;
$$2\Phi\left(\varepsilon\sqrt{\frac{n}{pq}}\right) - 1 \geq \beta$$
求解的是达到可信情况下需要的最小的试验次数,反解出$n$ 即可。
已知实验次数$n$ ,置信度$\beta$ ,发生概率$p$ ,求误差区间$\varepsilon$ 。
求解的是在可信的情况下,误差区间的大小,反解出$\varepsilon$ 即可。
Definition: 概率的置信区间
由积分极限定理
$$P\left\{\left|\frac{\frac{\mu_n}{n}-p}{\frac{p(1-p)}{n}}\right|<z_\beta\right\}=\beta$$
其中 $z_{\beta}$ 满足 $2\Phi\left(z_{\beta}\right)-1=\beta$ , 只要 $n$ 相当大.
对 $p$ 的二次方程
$$\left(\frac{\mu_n}{n}-p\right)^2=z_\beta^2\frac{p(1-p)}{n}$$
求解并略去 $\frac{1}{n}$ 的高阶无穷小项得:
$$P\left\{\frac{\mu_n}{n}-z_{\beta}\sqrt{\frac{\mu_n}{n}\left(1-\frac{\mu_n}{n}\right)}{n}<p<\frac{\mu_n}{n}+z_{\beta}\sqrt{\frac{\mu_n}{n}\left(1-\frac{\mu_n}{n}\right)}{n}\right\}=\beta$$
在数理统计中称我们已在置信水平 $\beta$ (一般为 95%)下得到概率 $p$ 的置信区间
$$\left\{\frac{\mu_n}{n}-z_\beta\sqrt{\frac{\mu_n}{n}\left(1-\frac{\mu_n}{n}\right)}{n}, \frac{\mu_n}{n}+z_\beta\sqrt{\frac{\mu_n}{n}\left(1-\frac{\mu_n}{n}\right)}{n}\right\}$$
当 $n$ 很大时,除了泊松分布近似二项分布外,局部定理提供了另外一种对二项分布的近似。
$$\begin{aligned} \binom{n}{k} p^k q^{n-k} &\approx \frac{1}{\sqrt{npq}} \varphi(x_k) \\ P\left\{a\leqslant\frac{\mu_{n}-n p}{\sqrt{n p q}}<b\right\} &\approx \Phi(b)-\Phi(a) \\ P\{k_1 \leq \mu_n \leq k_2\} &= P\left\{\frac{k_1 - np}{\sqrt{npq}} \leq \frac{\mu_n - np}{\sqrt{npq}} \leq \frac{k_2 - np}{\sqrt{npq}}\right\} \\ &\approx \Phi\left(\frac{k_2 - np}{\sqrt{npq}}\right) - \Phi\left(\frac{k_1 - np}{\sqrt{npq}}\right) \end{aligned}$$