Contents


第二章 条件概率与统计独立性

条件概率及全概率公式

Definition: 条件概率

$(\Omega, \mathscr{F}, P)$是一个概率空间,$B \in \mathscr{F}$$P(B) > 0$,则对任意$A \in \mathscr{F}$,记

\[P(A \mid B) = \frac{P(A \cap B)}{P(B)}\]
并称$P(A \mid B)$为在事件$B$发生的条件下事件$A$发生的条件概率。

Definition: 全概率公式

$A_i, \cdot ,A_n \in \mathscr{F}$,设$A_i \cap A_j = \varnothing(i \neq j), A_1 \cup A_2 \cup \cdots \cup A_n = \Omega$,则对任意事件$B \in \mathscr{F}$,有$B = \sum_{i=1}^{n}A_iB$,则$P(B) = \sum_{i=1}^{n}P(A_i)P(B \mid A_i)$

Definition: 贝叶斯公式

若事件$B \in \mathscr{F}$能且只能与两两互不相容的事件$A_1, A_2, \cdots, A_n, \cdots$之一同时发生,即

\[B = \bigcup_{i=1}^{\infty} (B \cap A_i)\]
由于
\[P(A_i \cap B) = P(B) P(A_i \mid B) = P(A_i) P(B \mid A_i)\]

\[P(A_i \mid B) = \frac{P(A_i) P(B \mid A_i)}{P(B)}\]
再利用全概率公式即得
\[P(A_i \mid B) = \frac{P(A_i) P(B \mid A_i)}{\sum_{i=1}^{\infty} P(A_i) P(B \mid A_i)}\]
这个公式称为贝叶斯公式。

独立性

Definition: 独立事件

对事件$A$$B$,若

\[P(A \cap B) = P(A) P(B)\]
则称它们是统计独立的,简称独立的(independent)。

Definition: 多事件独立

$n$个事件$A_1, A_2, \cdots, A_n$,若对于所有可能的组合$1 \leq i < j < k < \cdots \leq n$成立着

\[\begin{cases} P(A_i \cap A_j) = P(A_i) P(A_j) \\ P(A_i \cap A_j \cap A_k) = P(A_i) P(A_j) P(A_k) \\ \vdots \\ P(A_1 \cap A_2 \cap \cdots \cap A_n) = P(A_1) P(A_2) \cdots P(A_n) \end{cases}\]
则称$A_1, A_2, \cdots, A_n$相互独立。

{注}: 上面任何一个式子都不能省略.

Definition: 独立试验

若对于任意的

\[A^{(1)} \in \mathscr{F}_1, A^{(2)} \in \mathscr{F}_2, \cdots, A^{(n)} \in \mathscr{F}_n\]
均成立
\[P(A^{(1)} \cap A^{(2)} \cap \cdots \cap A^{(n)}) = P(A^{(1)}) P(A^{(2)}) \cdots P(A^{(n)})\]
则称试验$E_1, E_2, \cdots, E_n$是相互独立的。

常见概率分布

在此都假设事件是独立同分布的.

几何分布

事件 $A$ 第一次发生在第 $k$ 次试验的概率, 记为$g(k;p)$.

$$g(k;p)=P(W_k) = (1-p)^{k-1} p$$

由于 $g(k;p)$ 是几何级数的一般项,所以有

$$\sum_\limits{k=1}^{\infty } g(k;p) = \sum_{k=1}^{\infty } (1-p)^{k-1} p = p \sum_{k=0}^{\infty } (1-p)^k = p \frac{1}{1-(1-p)} = 1$$

显然,几何分布具有无记忆性
$$P(\eta ' =k) = P(\eta = m + k | \eta > m) = \frac{P(\eta = m+k)}{P(\eta>m) } = \frac{q^{m+k-1}p}{q^m} = q^{k-1}p$$

在离散型分布中,几何分布是唯一具有无记忆性的分布.

Proof:

$q_k = P(\eta>k)$$p_k=P(\eta = k)$,则$p_{k+1} = q_k - q_{k+1} = P(\eta>k) - P(\eta > k+1)$,则$P(\eta =k+1 \mid \eta >k) = \frac{P(\eta = k+1, \eta > k)}{P(\eta > k)} = \frac{p_{k+1}}{q_k} = \operatorname{const}$,令$p = \frac{p_{k+1}}{q_k}$,则$\frac{q_{k+1}}{q_k} = 1 - p$,则$q_k = (1-p)^k q_0 = (1-p)^k$,则$p_k = (1-p)^{k-1} p$,这就是几何分布。

帕斯卡分布

$r$次成功发生在第$k$次试验的概率, 记为$f(k;r,p)$.

$$f(k;r,p) = {k-1 \choose r-1} p^r (1-p)^{k-r}$$

二项分布

$n$重伯努利实验中事件$A$发生$k$次的概率, 记为$b(k;n,p)$.

$$b(k;n,p) = {n \choose k} p^k (1-p)^{n-k}$$

单调性:
$$\frac{b(k;n,p)}{b(k-1;n,p)}=\frac{n-k+1}{k} \frac{p}{1-p} = 1 + \frac{(n+1)p-k}{kq}$$

$k=\lfloor (n+1)p \rfloor$ 时值最大
可以证明 $b(m;n,p)\approx (2\pi npq)^{-\frac{1}{2}}$

多项分布

$n$重伯努利实验中事件$A_1,A_2,\cdots,A_r$分别发生$k_1,k_2,\cdots,k_r$次的概率, 记为$m(k_1,k_2,\cdots,k_r;n,p_1,p_2,\cdots,p_r)$.

$$\begin{aligned} m(k_1,k_2,\cdots,k_r;n,p_1,p_2,\cdots,p_r) &= {n \choose k_1} {n-k_1 \choose k_2} \cdots {k_r \choose k_r} p_1^{k_1} p_2^{k_2} \cdots p_r^{k_r} = \frac{n!}{k_{1}! k_{2}!\cdots k_{r}!} p_{1}^{k_{1}} p_{2}^{k_{2}}\cdots p_{r}^{k_{r}} \\ \sum_{k_1+k_2+\cdots+k_r=n} m(k_1,k_2,\cdots,k_r;n,p_1,p_2,\cdots,p_r) &= (p_1+p_2+\cdots+p_r)^n = 1 \end{aligned}$$

泊松分布

事件$A$在单位时间内发生$k$次的概率, 记为$p(k;\lambda)$.

由于二项分布在$n$很大的时候, 其计算较为复杂, 所以引入泊松分布.
对于$n$很大, $p$很小的情况, $\lambda = np$适中的情况, 可将泊松分布作为二项分布的近似.

Theorem: Poisson 分布

在独立试验中,以$p_n$代表事件$A$在试验中出现的概率,它与试验总数$n$有关,如果$n p_n \rightarrow \lambda$,则当$n \rightarrow \infty$时,

\[b(k; n, p_n) \rightarrow \frac{\lambda^k}{k!} e^{-\lambda}\]

Proof:

$\lambda_n = n p_n$,则

\[\begin{align*} b(k; n, p_n) &= \binom{n}{k} p_n^k (1 - p_n)^{n-k} \\ &= \frac{n(n-1) \cdots (n-k+1)}{k!} \left(\frac{\lambda_n}{n}\right)^k \left(1 - \frac{\lambda_n}{n}\right)^{n-k} \\ &= \frac{\lambda_n^k}{k!} \left(1 - \frac{1}{n}\right) \left(1 - \frac{2}{n}\right) \cdots \left(1 - \frac{k-1}{n}\right) \left(1 - \frac{\lambda_n}{n}\right)^{n-k} \end{align*}\]

由于对固定的$k$

\[\lim_{n \rightarrow \infty} \lambda_n^k = \lambda^k, \quad \lim_{n \rightarrow \infty} \left(1 - \frac{\lambda_n}{n}\right)^{n-k} = e^{-\lambda}\]

\[\lim_{n \rightarrow \infty} \left(1 - \frac{1}{n}\right) \left(1 - \frac{2}{n}\right) \cdots \left(1 - \frac{k-1}{n}\right) = 1\]

因此

\[\lim_{n \rightarrow \infty} b(k; n, p_n) = \frac{\lambda^k}{k!} e^{-\lambda}\]

证毕.

由证明可知, 这里$p$应该较小.
$p$较小时(一般小于0.1), 可用如下近似公式:

$$b(k; n, p) \approx \frac{(np)^k}{k!} e^{-np}$$

由于泊松分布可以看作二项分布的近似,所以其极大值出现在$k = \lfloor \lambda \rfloor$处。

下面研究泊松过程, 其代表事件间隔$\Delta t$内事件发生$k$次的概率.

Lemma: 柯西定理

若函数连续且 $f(x)$ 满足 $f(x+y) = f(x) f(y), \text{ for } \forall x, y \in \mathbb{R}$, 则 $f(x) = a^x$.

Definition: 泊松过程

考虑一个事件$A$,其满足如下性质:

  1. 平稳性:$[t_0,t)$ 时间内,$k$$t_0$ 无关,只与 $t$ 有关
  2. 独立增量性:$[t_0,t_1)$$[t_1,t_2)$ 是独立的
  3. 普通性:充分小时间内,最多发生一次

则称事件$A$为泊松过程。

$P_k(t)$为时间$t$内发生$k$次的概率, 利用如上公式求$P_k(t)$.
$\Delta t > 0$, 考虑$[0, t+\Delta t)$中事件发生$k$次的概率$P_k(t + \Delta t)$, 由独立性和全概率公式有:

$$P_k(t+\Delta t) = P_k(t)P_0(\Delta t) + P_{k-1}(t)P_1(\Delta t) + \cdots + P_0(t)P_k(\Delta t)$$

$k=0$ 时,有 $P_0(t+\Delta t) = P_0(t)P_0(\Delta t)$
引理2.4.1可知

$$P_0(t)=a^t = e^{-\lambda t}$$

$a=0$, 则$P_0(t) = 0$, 则$t \rightarrow 0$时, 事件也会发生, $\Delta t$内事件发生无穷次, 在此不考虑这种情况. 当$a = 1$时, 代表事件永不发生, 也不考虑这种情况. 所以$0 < a < 1$. 令$\lambda = -\ln a$, 则有 $P_0(t) = e^{-\lambda t}$.

因此当 $\Delta t \rightarrow 0$ 时,我们有

\[\begin{gathered} P_0(\Delta t) = e^{-\lambda \Delta t} = 1 - \lambda \Delta t + o(\Delta t) \\ P_1(\Delta t) = 1 - P_0(\Delta t) - \psi(\Delta t) = \lambda \Delta t + o(\Delta t) \\ \sum_{l=2}^{\infty} P_{k-l}(t) P_l(\Delta t) \leqslant \sum_{l=2}^{\infty} P_l(\Delta t) = \psi(\Delta t) = o(\Delta t) \end{gathered}\]

故:

\[\begin{gathered} P_k(t + \Delta t) = P_k(t)(1 - \lambda \Delta t) + P_{k-1}(t) \cdot \lambda \Delta t + o(\Delta t), k \geqslant 1 \end{gathered}\]

因此

\[\frac{P_k(t + \Delta t) - P_k(t)}{\Delta t} = \lambda [P_{k-1}(t) - P_k(t)] + o(1), k \geqslant 1\]

$\Delta t \rightarrow 0$, 得

\[P_k'(t) = \lambda [P_{k-1}(t) - P_k(t)], k \geqslant 1\]

由于已知$P_0(t) = e^{-\lambda t}$, 故有 $P_1'(t) = \lambda [e^{-\lambda t} - P_1(t)]$, 可解得 $P_1(t) = \lambda t e^{-\lambda t}$.
这样下去, 可解得一切 $P_k(t) = \frac{(\lambda t)^k}{k!} e^{-\lambda t}$

泊松过程描述了时间间隔$t$内事件发生$k$次的概率,可以看出泊松分布是$t=1$的特殊情况,即单位时间随机事件发生的次数的概率分布。