Contents


第四章 数字特征与特征函数

数字特征

数学期望

离散型随机变量

4.1.1 Definition: 数学期望

$\xi$为一离散型随机变量,它取值$x_1, x_2, x_3, \cdots$对应的概率为$p_1, p_2, p_3, \cdots$如果级数

$$\sum_{i=1}^{\infty} x_i p_i$$

绝对收敛,则把它称为$\xi$的数学期望(mathematical expectation),简称期望、期望值或均值(mean),记作$E\xi$

Example: 伯努利分布

事件$A$发生的概率为$p$,若以$1_A$记其示性函数,即$A$发生时取值1,否则取值0,则

$$E 1_A = 1 \times p + 0 \times (1 - p) = p = P(A)$$

Example: 二项分布的数学期望

二项分布$p_k = \binom{n}{k} p^k q^{n-k}, \quad k=0,1,2,\cdots, n$

$$\sum_{k=0}^n k p_k = \sum_{k=1}^n k \binom{n}{k} p^k q^{n-k} = n p \sum_{k=1}^n \binom{n-1}{k-1} p^{k-1} q^{n-k} = n p (p+q)^{n-1} = n p$$

Example: 泊松分布的数学期望

泊松分布$p_k = \frac{\lambda}{k!} e^{-\lambda}, \quad k=0,1,2,\cdots$

$$\sum_{k=0}^{\infty} k p_k = \sum_{k=1}^{\infty} k \cdot \frac{\lambda^k}{k!} e^{-\lambda} = \lambda e^{-\lambda} \sum_{k=1}^{\infty} \frac{\lambda^{k-1}}{(k-1)!} = \lambda e^{-\lambda} \cdot e^{\lambda} = \lambda$$

由此看出,泊松分布的参数$\lambda$就是它的期望值。

Example: 几何分布的数学期望

几何分布$p_k = q^{k-1} p, \quad k=1,2,\cdots$

$$\sum_{k=1}^{\infty} k p_k = \sum_{k=1}^{\infty} k q^{k-1} p = p(1 + 2q + 3q^2 + \cdots) = p(q + q^2 + q^3 + \cdots)' = p\left(\frac{q}{1-q}\right)' = p\frac{1}{(1-q)^2} = \frac{1}{p}$$

Example: 数学期望不存在

随机变量$\xi$取值$x_k = (-1)^k \frac{2^k}{k}, \quad k=1,2,\cdots$,概率为$p_k = \frac{1}{2^k}$,则由于$p_k \geqslant 0, \sum_{k=1}^{\infty} p_k = 1$,因此它是概率分布,而且

$$\sum_{k=1}^{\infty} x_k p_k = \sum_{k=1}^{\infty} (-1)^k \frac{1}{k} = -\ln 2$$

但由于

$$\sum_{k=1}^{\infty} |x_k| p_k = \sum_{k=1}^{\infty} \frac{1}{k} = \infty$$

因此按定义$\xi$的数学期望不存在。

这个例子展示了如何计算几何分布的数学期望。

连续型随机变量

4.1.2 Definition: 连续型随机变量的数学期望

$\xi$为具有密度函数$p(x)$的连续型随机变量,当积分$\int_{-\infty}^{\infty} x p(x) \, dx$绝对收敛时,我们称它为$\xi$的数学期望(或均值),记作$E\xi$,即

$$E\xi = \int_{-\infty}^{\infty} x p(x) \, dx$$

Example: 正态分布的数学期望

正态分布$N(\mu, \sigma^2)$

$$\int_{-\infty}^{\infty} x p(x) \, dx = \int_{-\infty}^{\infty} x \frac{1}{\sqrt{2\pi}\sigma} e^{-(x-\mu)^2/(2\sigma^2)} \, dx = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} (\sigma z + \mu) e^{-z^2/2} \, dz = \frac{\mu}{\sqrt{2\pi}} \int_{-\infty}^{\infty} e^{-z^2/2} \, dz = \mu$$

可见$N(\mu, \sigma^2)$中的参数$\mu$正是它的数学期望。

Example: 指数分布的数学期望

指数分布$p(x) = \lambda e^{-\lambda x}, \quad x \geqslant 0$

$$\int_0^{\infty} x \lambda e^{-\lambda x} \, dx = -\int_0^{\infty} x \, d e^{-\lambda x} = \int_0^{\infty} e^{-\lambda x} \, dx = \frac{1}{\lambda}$$

Example: 柯西分布的数学期望

柯西分布$p(x) = \frac{1}{\pi} \cdot \frac{1}{1+x^2}$

由于

$$\int_{-\infty}^{\infty} |x| \cdot \frac{1}{\pi(1+x^2)} \, dx = \infty$$

因此柯西分布的数学期望不存在。

对于一般情况下,使用斯蒂尔斯积分:

4.1.3 Definition: 数学期望

$\xi$ 的分布函数为 $F(x)$,则定义

$$E\xi = \int_{-\infty}^{\infty} x dF(x)$$

$\xi$ 的数学期望(或均值)。要求上述积分绝对收敛,否则数学期望不存在。

4.1.4 Theorem: 随机变量函数函数的数学期望

$g(x)$是一元博雷尔函数,而$\eta = g(\xi)$,则

$$\int_{-\infty}^{\infty} y dF_{\eta}(y) = \int_{-\infty}^{\infty} g(x) dF_{\xi}(x)$$

即这两个积分中,若有一个存在,则另一个也存在,而且两者相等。

该定理使得我们计算随机变量函数的数学期望时不需要先求解函数的分布函数,而是直接利用原随机变量的分布函数即可。

4.1.4 Definition: 随机向量数学期望

随机向量 $\left(\xi_1,\xi_2,\cdots,\xi_n\right)$ 的数学期望为 $\left(E\xi_1, E\xi_2,\cdots, E\xi_n\right)$,其中

$$E\xi_i=\int_{-\infty}^{\infty}\cdots\int_{-\infty}^{\infty} x_i d F\left(x_1,\cdots, x_n\right)=\int_{-\infty}^{\infty} x_i d F_i\left(x_i\right)$$

这里 $F_i\left(x_i\right)$$\xi_i$ 的分布函数 $\left(i=1,2,\cdots, n\right)$

方差

4.2.1 Definition: 随机变量方差

$E(\xi-E\xi)^2$ 存在,则称它为随机变量 $\xi$ 的方差(variance),并记为 $D\xi$,而 $\sqrt{D\xi}$ 称为根方差、均方差或更多地称为标准差(standard deviation)。

利用数学期望的线性性质,可以得到方差的另一种表达形式:

$$\begin{align*} D\xi &= E(\xi-E\xi)^2 = E\left[\xi^2-2\xi\cdot E\xi+(E\xi)^2\right] \\ &= E\xi^2-2 E\xi\cdot E\xi+(E\xi)^2 = E\xi^2-(E\xi)^2 \end{align*}$$

Example: 伯努利分布方差

$$\begin{gather*} E\xi^2 = 1^2 \cdot p + 0^2 \cdot (1 - p) = p\\ D\xi = E\xi^2 - (E\xi)^2 = p - p^2 = pq \end{gather*}$$

$p = q = \frac{1}{2}$ 时方差最大——投币最难预测,预测阴晴则较易。

Example: 二项分布方差

$$\begin{aligned} D \xi &= E \xi ^2 - (E \xi )^2 \\ &= \sum_{k=0}^{n} k^2 C_n^k p^k (1 - p)^{n-k} - (np)^2 \\ &= \sum_{k=0}^{n} k \cdot np C_{n-1}^{k-1} p^{k-1} (1 - p)^{n-k} - (np)^2 \\ &= np(\sum_{k=1}^{n} (k - 1) C_{n-1}^{k-1} p^{k-1} (1 - p)^{n-k} + \sum_{k=1}^{n} C_{n-1}^{k-1} p^{k-1} (1 - p)^{n-k}) - (np)^2 \\ &= np(\sum_{k=0}^{n-1} k C_{n-1}^{k} p^k (1 - p)^{n-1-k} + \sum_{k=1}^{n} C_{n-1}^{k-1} (1 - p)^{n-k} p^{k-1}) - (np)^2 \\ &= np(E\xi + (p + (1 - p)^{n-1}) - (np)^2 \\ &= np((n - 1)p + 1) - n^2 p^2 \\ &= np(1 - p) \end{aligned}$$

该定理利用独立性可以显然得出结果。

Example: 泊松分布方差

$$\begin{gather*} E\xi^2 = \sum_{k=0}^{\infty} k^2 p_k = \sum_{k=1}^{\infty} k \frac{\lambda^k e^{-\lambda}}{k!} = \sum_{k=1}^{\infty} k \frac{\lambda^k}{(k-1)!} e^{-\lambda} \\ $= \lambda \sum_{k=0}^{\infty} (k+1) \frac{\lambda^k}{k!} e^{-\lambda} = \lambda^2 + \lambda \\ $D\xi = E\xi^2 - (E\xi)^2 = \lambda^2 + \lambda - \lambda^2 = \lambda \end{gather*}$$

均值与方差都是 $\lambda$

Example: 均匀分布方差

$$\begin{gather*} E\xi = \int_{a}^{b} x \frac{1}{b-a} dx = \frac{b+a}{2}\\ E\xi^2 = \int_{a}^{b} x^2 \frac{1}{b-a} dx = \frac{b^2 + ab + a^2}{3}\\ D\xi = E\xi^2 - (E\xi)^2 = \frac{b^2 + ab + a^2}{3} - \left(\frac{b+a}{2}\right)^2 = \frac{(b-a)^2}{12} \end{gather*}$$

Example:正态分布方差

$$\begin{align*} D\xi &= \int_{-\infty}^{\infty} (x-\mu)^2 \frac{1}{\sqrt{2\pi}\sigma} e^{-(x-\mu)^2/(2\sigma^2)} dx \\ &= \frac{\sigma^2}{\sqrt{2\pi}} \int_{-\infty}^{\infty} z^2 e^{-z^2/2} dz \\ &= \frac{\sigma^2}{\sqrt{2\pi}} \left[ \left( -ze^{-z^2/2} \right) \bigg|_{-\infty}^{\infty} + \int_{-\infty}^{\infty} e^{-z^2/2} dz \right] \\ &= \frac{\sigma^2}{\sqrt{2\pi}} \sqrt{2\pi} = \sigma^2 \end{align*}$$

方差的性质

  1. 常数的方差为 0。

  2. $D(\xi + c) = D\xi$,这里 $c$ 是常数。

  3. $D(c\xi) = c^2 D\xi$,这里 $c$ 是常数。
    对于随机变量 $\xi$,若它的数学期望 $E\xi$ 及方差 $D\xi$ 都存在,而且 $D\xi > 0$,有时要考虑标准化了的随机变量

    $$\xi^* = \frac{\xi - E\xi}{\sqrt{D\xi}}$$

    显然 $E\xi^* = 0, D\xi^* = 1$

  4. $c \neq E\xi$,则 $D\xi < E(\xi - c)^2$

Proof:

$$D\xi = E(\xi - E\xi)^2 = E(\xi - c)^2 - (c - E\xi)^2$$

这个性质表明数学期望具有一个重要的极值性质:在 $E(\xi - c)^2$ 中,当 $c = E\xi$ 时达到极小;这也说明在 $D\xi$ 的定义中取 $c = E\xi$ 的合理性。

Theorem: 切比雪夫不等式

对于任何具有有限方差的随机变量 $\xi$,都有

$$P\{|\xi-E\xi|\geqslant\varepsilon\}\leqslant\frac{D\xi}{\varepsilon^2}$$

其中 $\varepsilon$ 是任一正数。

Proof:

$F(x)$$\xi$ 的分布函数,则显然有

$$\begin{align*} D\xi=\int_{-\infty}^{\infty}(x-E\xi)^2 d F(x)&\geqslant\int_{|x-E\xi|\geqslant\varepsilon}(x-E\xi)^2 d F(x) \\ &\geqslant\int_{|x-E\xi|\geqslant\varepsilon}\varepsilon^2 d F(x) =\varepsilon^2 P\left\{|\xi-E\xi|\geqslant\varepsilon\right\} \end{align*}$$

有时把该不等式改写成

$$P\{|\xi-E\xi|<\varepsilon\}\geqslant 1-\frac{D\xi}{\varepsilon^2}$$

$$P\left\{\left|\frac{\xi-E\xi}{\sqrt{D\xi}}\right|\geqslant\delta\right\}\leqslant\frac{1}{\delta^2}$$

切比雪夫不等式利用随机变量 $\xi$ 的数学期望 $E\xi$ 及方差 $D\xi=\sigma^2$$\xi$ 的概率分布进行估计。因为只利用数学期望及方差就描述了随机变量的重要情况,因此它在理论研究及实际应用中都很有价值。

下面给出典型分布的均值和方差

分布 均值$\mu$ 方差$D$
伯努利 $p$ $pq$
二项分布 $np$ $npq$
泊松分布 $\lambda$ $\lambda$
几何分布 $\frac{1}{p}$ $\frac{1-p}{p^2}$
正态分布 $\mu$ $\sigma^2$
指数分布 $\frac{1}{\lambda}$ $\frac{1}{\lambda^2}$
均匀分布 $\frac{a+b}{2}$ $\frac{(b-a)^2}{12}$
超几何分布 $\frac{nM}{N}$ $\frac{nM}{N}\left(1 - \frac{M}{N}\right)\frac{N-n}{N-1}$
伽马分布 $\frac{\alpha}{\lambda}$ $\frac{\alpha}{\lambda^2}$

相关系数

对于随机向量,只用方差是不够的,还需要考虑随机变量之间的关系。
计算 $\xi \pm \eta$ 的方差:

$$\begin{align*} D(\xi \pm \eta) &= E[(\xi \pm \eta) - (E\xi \pm E\eta)]^2 \\ &= E(\xi - E\xi)^2 + E(\eta - E\eta)^2 \pm 2 E[(\xi - E\xi)(\eta - E\eta)] \\ &= D\xi + D\eta \pm 2 E[(\xi - E\xi)(\eta - E\eta)] \end{align*}$$

这启发我们引入 $E[(\xi - E\xi)(\eta - E\eta)]$

Definition 4.2.2: 协方差

$\sigma_{ij} = \operatorname{cov}(\xi_i, \xi_j) = E[(\xi_i - E\xi_i)(\xi_j - E\xi_j)] \quad i, j = 1, 2, \ldots, n$$\xi_i$$\xi_j$ 的协方差(covariance)。

不难验算

$$\begin{gather*} \operatorname{}{cov}(\xi_i, \xi_j) = E\xi_i \xi_j - E\xi_i \cdot E\xi_j \\ D\left(\sum_{i=1}^{n} \xi_i\right) = \sum_{i=1}^{n} D\xi_i + 2 \sum_{1 \leq i < j \leq n} \text{cov}(\xi_i, \xi_j) \end{gather*}$$

特别地

$$D(\xi_i \pm \xi_j) = D\xi_i + D\xi_j \pm 2\text{cov}(\xi_i, \xi_j)$$

方差是协方差的特例,显然 $\sigma_{ii} = D\xi_i$。矩阵

$$\Sigma = \begin{pmatrix} \sigma_{11} & \sigma_{12} & \cdots & \sigma_{1n} \\ \sigma_{21} & \sigma_{22} & \cdots & \sigma_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ \sigma_{n1} & \sigma_{n2} & \cdots & \sigma_{nn} \end{pmatrix}$$

称为 $\xi$ 的协方差矩阵,简记作 $D\xi$,显然这是一个对称矩阵。

此外,对任何随机向量和期望向量,有

$$\begin{align*} X=&\left[\begin{array}{cccc} X_1& X_2&\cdots& X_n\end{array}\right]^T\\ \mu=&\left[\begin{array}{cccc}\mu_1&\mu_2&\cdots&\mu_n\end{array}\right]^T \end{align*}$$

所以:\(\Sigma=E\left[(X-\mu)(X-\mu)^T\right]\)
对任意实向量y:

$$\begin{align*} & y^T\Sigma y= y^T E[(X-\mu)(X-\mu)^T] y\\ &= E[ y^T(X-\mu)(X-\mu)^T y]\\ &= E[\left((X-\mu)^T y\right)^T\left((X-\mu)^T y\right)]\\ &= E[\left\|(X-\mu)^T y\right\|^2]\geq 0 \end{align*}$$

因此 $\Sigma$ 是一个非负定矩阵,所以有 $\det \Sigma \geq 0$

更常用的是如下“标准化”了的协方差。

4.2.3 Definition: 相关系数

$\rho_{ij} = \frac{\text{cov}(\xi_i, \xi_j)}{\sqrt{D\xi_i D\xi_j}}$$\xi_i$$\xi_j$ 的相关系数(correlation coefficient),这里要求 $D\xi_i$$D\xi_j$ 不为零。

相关系数的优点是排除了量纲的影响,且有 $-1 \leq \rho_{ij} \leq 1$
由于

$$\rho_{a\xi+b, c\eta+d}= \frac{\text{cov}(a \xi+b, c \eta + d)}{ \sqrt{D(a\xi+b) D(c\eta+d)} } = \frac{ac \text{cov}(\xi,\eta)}{|a c|\sqrt{D\xi}\sqrt{D\eta}}=\rho_{\xi\eta}$$

相关系数在线性变化下保持不变,即 $a \xi + b$$c \eta + d$ 的相关系数仍为 $\rho _{\xi \eta }$

由于 $E\frac{\xi_i - E\xi_i}{\sqrt{D\xi_i}} = 0, D\frac{\xi_i - E\xi_i}{\sqrt{D\xi_i}} = 1$,所以相关系数就是标准化随机变量的协方差。

4.2.1 Theorem: Cauchy-Schwarz 不等式

对任意随机变量$\xi$$\eta$都有

$$|E\xi\eta|^2 \leq E\xi^2 \cdot E\eta^2$$

等式成立当且仅当

$$P\left\{\eta=t_0\xi\right\}=1$$

$t_0$为常数。

由该定理可以得到相关系数的性质:
$|\rho|\leqslant 1$,并且 \(\rho=1\) 当且仅当

$$P\left\{\frac{\xi-E\xi}{\sqrt{D\xi}}=\frac{\eta-E\eta}{\sqrt{D\eta}}\right\}=1$$

\(\rho=-1\) 当且仅当

$$P\left\{\frac{\xi-E\xi}{\sqrt{D\xi}}=-\frac{\eta-E\eta}{\sqrt{D\eta}}\right\}=1$$

\(\rho=\pm 1\) 时,\(\xi\)\(\eta\) 存在着完全线性关系,这时如果给定一个随机变量之值,另一个随机变量的值便完全决定。\(\rho=1\) 时,称为完全正相关;\(\rho=-1\) 时,称为完全负相关。

4.2.4 Definition: 随机变量的不相关性

若随机变量$\xi$$\eta$的相关系数$\rho=0$,则我们称$\xi$$\eta$不相关。

不相关随机变量的性质

对随机变量$\xi$$\eta$,下面事实是等价的:
(1) $\operatorname{cov}(\xi,\eta)=0;$
(2) $\xi$$\eta$不相关;
(3) $E\xi\eta=E\xi E\eta;$
(4) $D(\xi+\eta)=D\xi+D\eta.$

Proof:

显然(1)与(2)是等价的。由于

$$\operatorname{cov}(\xi,\eta)=E\xi\eta-E\xi\cdot E\eta$$

因此(1)与(3)等价。又由于

$$D(\xi+\eta)=D\xi+D\eta+2\operatorname{cov}(\xi,\eta)$$

因此(1)与(4)等价。

Theorem: 独立性与相关性

$\xi$$\eta$ 独立,则 $\xi$$\eta$ 不相关.

Proof:

因为 $\xi$$\eta$ 独立,故其密度函数 $p(x,y) = p_1(x)p_2(y)$,因此

$$\begin{align*} \text{cov}(\xi, \eta) &= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} (x - E\xi)(y - E\eta)p(x,y) \, dx \, dy \\ &= \int_{-\infty}^{\infty} (x - E\xi)p_1(x) \, dx \cdot \int_{-\infty}^{\infty} (y - E\eta)p_2(y) \, dy = 0 \end{align*}$$

结合性质 2 及性质 3 可得:若 $\xi$$\eta$ 独立,则 $E\xi\eta = E\xi \cdot E\eta$$D(\xi + \eta) = D\xi + D\eta$ 成立。同样的论证可以证明类似的结论在 $n$ 个随机变量的场合也成立,即若 $\xi_1, \xi_2, \cdots, \xi_n$ 是相互独立的随机变量,则

$$\begin{gathered} E\xi_1\xi_2\cdots\xi_n = E\xi_1 E\xi_2 \cdots E\xi_n\\ D(\xi_1 + \xi_2 + \cdots + \xi_n) = D\xi_1 + D\xi_2 + \cdots + D\xi_n \end{gathered}$$

由独立性可以推出不相关性,但是反过来是不成立的。实际上,相关性只表示了线性关系,而独立性则表示了更强的关系。
一般地,若 $\xi$ 服从对称分布,则 $\eta = \xi^2$$\eta = |\xi|$$\xi$ 不相关但不独立。但对于二元正态分布,不相关性与独立性是等价的。

Theorem: 二值随机变量的不相关性与独立性

$\xi$$\eta$都是二值随机变量,则不相关性与独立性是等价的。

Proof:

$\xi$取二值$a$$c$$\eta$取二值$b$$d$,下面证明由$\rho_{\xi\eta}=0$可推得$\xi$$\eta$独立。
$A=\{\xi=a\}, B=\{\eta=b\}$
从而$\bar{A}=\{\xi=c\},\quad\bar{B}=\{\eta=d\}$
于是它们的示性函数

$$1_A=\frac{\xi-c}{a-c},\quad 1_B=\frac{\eta-d}{b-d}$$

$\operatorname{cov}(1_A, 1_B)=E 1_A 1_B-E 1_A\cdot E 1_B=P(A B)-P(A) P(B)$

$$D 1_A=P(A) P(\bar{A}),\quad D 1_B=P(B) P(\bar{B})$$

得到

$$\rho_{1 A 1 B}=\frac{P(A B)-P(A) P(B)}{\sqrt{P(A) P(\bar{A}) P(B) P(\bar{B})}}=0$$

这是因为$1_A$$1_B$分别为$\xi$$\eta$的线性变换,而后者不相关。

因而$P(A B)=P(A) P(B)$,即

$$P\{\xi=a,\eta=b\} = P\{\xi=a \} P\{\eta=b\}$$

再由$(A,\bar{B}),(\bar{A}, B)$$(\bar{A},\bar{B})$的独立性可知

$$\begin{align*} P\{\xi=a,\eta=d\}&=P\{\xi=a\} P\{\eta=d\}\\ P\{\xi=c,\eta=b\}&=P\{\xi=c\} P\{\eta=b\}\\ P\{\xi=c,\eta=d\}&=P\{\xi=c\} P\{\eta=d\} \end{align*}$$

至此我们已证得$\xi$$\eta$独立。

由上述推导可知,对事件 \(A\)\(B\),若定义事件相关系数为

\[\rho_{AB} = \rho_{1A1B} = \frac{P(AB) - P(A)P(B)}{\sqrt{P(A)P(\bar{A})P(B)P(\bar{B})}}\]

\(A\)\(B\) 独立的充要条件为 \(\rho_{AB} = 0\).

Corollary

\(|P(AB) - P(A)P(B)| \leq \frac{1}{4}\)

Proof:


\[\rho_{AB} = \rho_{1A1B} = \frac{P(AB) - P(A)P(B)}{\sqrt{P(A)P(\bar{A})P(B)P(\bar{B})}} \leq 1\]

可得 \(|P(AB) - P(A)P(B)| \leq \sqrt{P(A)P(\bar{A})P(B)P(\bar{B})} \leq \frac{1}{4}\).

4.2.5 Definition: 原点矩

对正整数$k$,称

$$m_k = E\xi^k$$

$k$阶原点矩。数学期望是一阶原点矩。
由于$|\xi|^{k-1} \leqslant 1+|\xi|^k$,因此若$k$阶矩存在,则所有低阶矩都存在。

4.2.6 Definition: 中心矩

对正整数$k$,称

$$c_k = E(\xi-E\xi)^k$$

$k$阶中心矩。方差是2阶中心矩。

由于

$$\begin{align*} c_k = E(\xi-E\xi)^k &= \sum_{i=0}^k \binom{k}{i}(-E\xi)^{k-i} E\xi^i\\ &= \sum_{i=0}^k \binom{k}{i}(-m_1)^{k-i} m_i \end{align*}$$

故中心矩可通过原点矩来表达,反之,

\[\begin{align*} m_k &= E\xi^k = E\left[\left(\xi - m_1\right) + m_1\right]^k \\ &= \sum_{i=0}^k \binom{k}{i} E\left(\xi - m_1\right)^{k-i} m_1^i = \sum_{i=0}^k \binom{k}{i} c_{k-i} m_1^i \end{align*}\]

因此当已知数学期望之后,原点矩也可以通过中心矩给出。

Example: 正态分布的矩

$\xi$为正态随机变量,其密度函数为

$$p(x)=\frac{1}{\sqrt{2\pi\sigma}} e^{-x^2/\left(2\sigma^2\right)}$$

因此$E\xi=0$,故

$$m_k=c_k=E\xi^k=\int_{-\infty}^{\infty} x^k\frac{1}{\sqrt{2\pi\sigma}} e^{-x^2/\left(2\sigma^2\right)} d x$$

显然,$k$为奇数时,$c_k=0$$k$为偶数时,

$$\begin{align*} c_k&=\sqrt{\frac{2}{\pi}}\int_0^{\infty}\frac{x^k}{\sigma}{e^{-\frac{x^2}{2\sigma^2}}~d x}=\sqrt{\frac{2}{\pi}}\sigma^k\cdot 2^{\frac{k-1}{2}}\int_0^{\infty} z^{\frac{k-1}{2}} e^{-z}~d z \\ &=\sqrt{\frac{2}{\pi}}\sigma^k 2^{\frac{k-1}{2}}\Gamma\left(\frac{k+1}{2}\right)=\sigma^k(k-1)(k-3)\cdots 3\cdot 1 \end{align*}$$

特别地

$$c_4=3\sigma^4$$

分位数

4.2.7 Definition: 分位数

$0 < p < 1$,若

$$F(x_p) \leqslant p \leqslant F(x_p+0)$$

则称$x_p$为分布函数$F(x)$$p$分位数。

由于 $F(x)$ 可能不是严格单调递增的,所以不采用 $F(x_p) = p$ 来定义分位数。

条件数学期望

4.2.8 Definition: 条件数学期望

$\xi=x$的条件下,$\eta$的条件数学期望定义为

$$E\{\eta | \xi = x\} = \int_{-\infty}^{\infty} yp(y | x) dy$$

条件数学期望在预测问题(拟合)中有重要应用。
考虑随机变量 $\xi$$\eta$,若需要寻找 $h(\xi )$,使得 $E(\eta - h(\xi ))^2$ 最小。

\[\begin{align*} E[\eta - h(\xi)]^2 &= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} [y - h(x)]^2 p(x,y) \, dx \, dy\\ &= \int_{-\infty}^{\infty} p_1(x) \left\{ \int_{-\infty}^{\infty} [y - h(x)]^2 p(y \mid x) \, dy \right\} \, dx \end{align*}\]

方差的性质可知,当 $h(x) = E(\eta \mid \xi = x)$ 时,$E[\eta - h(\xi)]^2$ 最小。称 $E(\eta \mid \xi = x)$$\eta$ 关于 $\xi = x$ 的回归。

Theorem: 重期望公式

\(E\{\eta|\xi\}\)\(\xi\) 的如下函数:当 \(\xi = x\) 时,它取值 \(E\{\eta|\xi = x\}\)。显然\(E\{\eta|\xi\}\) 是随机变量,且\(E\eta = E[E\{\eta \mid \xi\}]\)

Proof:

$$\begin{align*} E[E\{\eta\mid\xi\}] &= \int_{-\infty}^{\infty} E\left\{\eta\mid\xi=x\right\} p_{1}(x) d x \\ &=\int_{-\infty}^{\infty}\left[\int_{-\infty}^{\infty} y p(y\mid x) d y\right] p_{1}(x) d x\\ &=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty} y p(x, y) d x d y = E\eta \end{align*}$$

一般情况下 $E\{\eta \mid \xi = x\}$ 不易求出,则对 $h(x)$ 的拟合可以采用线性函数,即 $L(x) = ax + b$
求下列误差函数的最小值,即

\[(a,b) = \arg \min e(a, b) = E[\eta - (a + b\xi)]^2\]

\(e(a, b)\)\(a, b\) 求偏导数并令它们等于 0 ,得到

\[\begin{align*} & 2 E[\eta - (a + b\xi)] = 0 \\ & 2 E[(\eta - (a + b\xi))\xi] = 0 \end{align*}\]

整理后变成

\[\begin{align*} & a + b\mu_1 = \mu_2 \\ & a\mu_1 + b E\xi^2 = E\xi\eta \end{align*}\]

因此解得

\[\begin{align*} & a = \mu_2 - b\mu_1, \quad b = \frac{\operatorname{cov}(\xi, \eta)}{\sigma_1^2} = \rho \cdot \frac{\sigma_2}{\sigma_1} \end{align*}\]

最佳线性预测为

\[L(x) = \mu_2 + \rho \frac{\sigma_2}{\sigma_1} (x - \mu_1)\]

我们称为 \(\eta\) 关于 \(\xi\) 的线性回归。这个结果与 \(E\{\eta \mid \xi = x\}\) 一般是不同的,但是在 \((\xi, \eta)\) 是二元正态分布的场合两者是重合的,所以在正态分布场合,最佳预测是线性预测,这是一个十分重要的结果。

进一步,我们还可以计算最佳线性预测的均方误差.

\[\begin{aligned} E[\eta - L(\xi)]^2 &= E[\eta - \mu_2 - b(\xi - \mu_1)]^2 \\ &= \sigma_2^2 + b^2\sigma_1^2 - 2b\operatorname{cov}(\xi, \eta)\\ &= \sigma_2^2 - \frac{\operatorname{cov}^2(\xi, \eta)}{\sigma_1^2} = \sigma_2^2(1 - \rho^2) \end{aligned}\]

因此预测误差同 \(\eta\) 的方差有关,也同 \(\xi\)\(\eta\) 的相关系数有关,特别当 \(|\rho| = 1\) 时(这时 \(\xi\)\(\eta\) 有线性关系),预测误差为 0,也就是说,可以完全准确地进行线性预测。从这个讨论再次看出,相关系数反映了 \(\xi\)\(\eta\) 线性联系的程度。

最佳线性预测理论中的另一个重要事实是:预测值 \(\hat{\eta} = L(\xi)\) 与残差 \(\eta - \hat{\eta}\) 是不相关的。证明如下:

Proof:

由于

\[\hat{\eta} = L(\xi) = \mu_2 + \rho \frac{\sigma_2}{\sigma_1} (\xi - \mu_1)\]

因此

$$\begin{gathered} E\hat{\eta} = \mu_2 \\ E(\eta - \hat{\eta}) = 0 \end{gathered}$$

这样一来

$$\begin{align*} \operatorname{cov}(\hat{\eta}, \eta - \hat{\eta}) &= E[(\hat{\eta} - \mu_2)(\eta - \hat{\eta})] \\ &= E\left\{\rho \frac{\sigma_2}{\sigma_1} (\xi - \mu_1)[(\eta - \mu_2) - \rho \frac{\sigma_2}{\sigma_1} (\xi - \mu_1)]\right\} \\ &= \rho \frac{\sigma_2}{\sigma_1} (\rho \sigma_1 \sigma_2 - \rho \frac{\sigma_2}{\sigma_1} \sigma_1^2) = 0 \end{align*}$$

这个事实可以解释为:残差中已不再包含对预测 \(\eta\) 有用的知识。因此观察值 \(\eta\) 被分解为两个不相关的随机变量之和:

\[\eta = \hat{\eta} + (\eta - \hat{\eta})\]

熵与信息

母函数

母函数的概念

4.4.1 Definition: 随机变量的母函数定义

若随机变量 $\xi$ 取非负整数值,且相应的分布列为

$\xi$ 0 1 2 ...
$P$ $p_0$ $p_1$ $p_2$ ...

则称

$$P(s)=\sum_{k=0}^{\infty} p_k s^k$$

$\xi$ 的母函数(generating function)。

下面给出常见分布的母函数。
4.4.5 Example: 二项分布的母函数

$$P(s)=\sum_{k=0}^n\binom{n}{k}\cdot p^kq^{n-k}s^k=(q+ps)^n$$

4.4.7 Example: 泊松分布的母函数

$$P(s)=\sum_{k=0}^{\infty}\frac{\lambda^k}{k!} e^{-\lambda}s^k=e^{-\lambda}\cdot e^{\lambda s}=e^{\lambda(s-1)}$$

4.4.8 Example: 几何分布的母函数

$$P(s)=\sum_{k=1}^{\infty} q^{k-1} p s^k=p s\sum_{k=1}^{\infty}(q s)^{k-1}=\frac{p s}{1-q s}$$

母函数的性质:
1.母函数和分布列是一一对应的。
设概率分布 $\left\{p_k\right\}$$\left\{q_k\right\}$ 分别具有母函数 $P(s)$$Q(s)$,而且 $P(s)=Q(s)$,因为 $P(s)$$Q(s)$ 都是幂级数,且当 $|s|\leqslant 1$ 时收敛,对 $P(s)$$Q(s)$ 求导 $k$ 次,并令 $s=0$,则得

$$k! p_k=P^{(k)}(0)=Q^{(k)}(0)=k! q_k$$

所以 $p_k=q_k$,即母函数唯一确定分布列。

2.母函数与数字特征的关系。
$P(s)=\sum_{k=0}^{\infty} p_k s^k$,即 $P'(s)=\sum_{k=1}^{\infty} k p_k s^{k-1}, P''(s)=\sum_{k=2}^{\infty} k(k-1) p_k s^{k-2}$,这两个级数至少在 $|s|<1$ 是收敛的。

当数学期望 $\sum_{k=1}^{\infty} kp_k$ 存在时,$P'(1)=\sum_{k=1}^{\infty} kp_k=E\xi$
当数学期望 $\sum_{k=1}^{\infty} k p_k=\infty$ 时,$\lim_{s\rightarrow 1} P'(s)=\infty$
同样,当方差 $D\xi$ 存在时,$E[\xi(\xi-1)]=\sum_{k=2}^{\infty} k(k-1) p_k=P''(1)$
$D\xi=E\xi^2-(E\xi)^2=P''(1)+P'(1)-[P'(1)]^2$
上述公式是计算数学期望及方差的简便公式。

独立随机变量和的母函数

若随机变量 $\xi$$\eta$ 相互独立,它们都是整值随机变量,概率分布分别为 $\{a_k\}$$\{b_k\}$,相应的母函数为 $A(s) = \sum_{k=0}^{\infty} a_k s^k$$B(s) = \sum_{k=0}^{\infty} b_k s^k$。显然 $\zeta=\xi+\eta$ 也是整值随机变量,若记 $c_r = P(\zeta = r)$,则

$$c_r = a_0 b_r + a_1 b_{r-1} + \cdots + a_r b_0$$

这就是离散卷积公式。

$$C(s) = \sum_{r=0}^{\infty} c_r s^r$$

利用母函数在 $|s| \leqslant 1$ 的一致收敛性及绝对收敛性,

$$A(s) B(s) = \sum_{r=0}^{\infty} \left( \sum_{k=0}^{r} a_k b_{r-k} \right) s^r,$$

因此

$$C(s) = A(s) B(s).$$

即两个独立随机变量之和的母函数是这两个随机变量的母函数的乘积,这是一个相当重要的性质,由于母函数具有这个性质,因此在研究独立随机变量和的问题时,母函数很适用。

容易把上面结果推广到 $n$ 个独立整值随机变量之和的场合。若随机变量 $\xi_1, \xi_2, \cdots, \xi_n$ 相互独立,且它们的母函数分别为 $P_1(s), P_2(s), \cdots, P_n(s)$,则 $\xi = \xi_1 + \xi_2 + \cdots + \xi_n$ 的母函数为

$$P(s) = P_1(s) P_2(s) \cdots P_n(s)$$

特别当 $\xi_i$ 有相同概率分布的场合,$P_i(s) = P_1(s)$,这时

$$P(s) = [P_1(s)]^n$$

随机个随机变量的母函数

特征函数

4.5.1 Definition: 复随机变量

如果 $\xi$$\eta$ 都是概率空间 $(\Omega, \mathcal{F}, P)$ 上的实值随机变量,则称 $\zeta = \xi + i\eta$ 为复随机变量。

4.5.2 Definition: 复随机变量的数学期望

定义一个复随机变量 $\zeta = \xi + i\eta$ 的数学期望为

$$E\zeta = E\xi + iE\eta$$

从定义知道,对复随机变量的研究本质上是对二维随机向量的研究。例如二维向量 $(\xi_1, \eta_1)$$(\xi_2, \eta_2)$ 是独立的,则我们称复随机变量 $\zeta_1 = \xi_1 + i\eta_1$$\zeta_2 = \xi_2 + i\eta_2$ 是独立的。
对复随机变量也可以平行于实随机变量建立起一系列结果。例如,若 $\xi_1, \xi_2, \cdots, \xi_n$ 是相互独立的,则

$$E\xi_1\xi_2\cdots\xi_n = E\xi_1 E\xi_2 \cdots E\xi_n$$

又如,若 $g(x)$ 是一个一元博雷尔可测函数,而 $\eta = g(\xi)$,则成立

$$Ee^{ig(\xi)} = \int_{-\infty}^{\infty} e^{itg(x)} dF_\xi(x)$$

这里使用欧拉公式 $e^{i\theta} = \cos\theta + i\sin\theta$

4.5.2 Definition: 特征函数

若随机变量 $\xi$ 的分布函数为 $F_\xi(x)$,则称

$$f_\xi(t)=E e^{i t\xi}=\int_{-\infty}^{\infty} e^{i t x} d F_\xi(x)$$

$\xi$ 的特征函数(characteristic function)。

特征函数是一个实变量的复值函数,由于 $|e^{itx}| = 1$,所以它对一切实数 $t$ 都有意义。对于离散型随机变量,若其分布列为 $p_j$,则其特征函数为

$$f(t) = \sum_{j=1}^{\infty} p_j e^{itx_j}$$

特别地,对于整值随机变量,若其母函数为 $P(s)$,则 $f(t) = P(e^{it})$。显然对于常见的分布可以利用上一节的母函数立马得到特征函数。
对于连续型随机变量,若其分布密度函数为 $p(x)$,则其特征函数为

$$f(t) = \int_{-\infty}^{\infty} e^{itx} p(x) dx$$

这时,特征函数是密度函数 $p(x)$ 的傅里叶(Fourier)变换。
下面给出常见分布的特征函数。
4.5.5 Example: 退化分布的特征函数

退化分布 $I_c(x)$ 的特征函数为

$$f(t)=e^{i c t}$$

4.5.6 Example: 二项分布的特征函数

二项分布 $B(n, p)$ 的特征函数为

$$f(t)=\left(p e^{i t}+q\right)^n$$

4.5.7 Example: 泊松分布的特征函数

泊松分布 $P(\lambda)$ 的特征函数为

$$f(t)=e^{\lambda(e^{i t}-1)}$$

4.5.8 Example: $\Gamma$ 分布的特征函数

$\Gamma$ 分布 $\Gamma(r,\lambda)$ 的特征函数为

$$\begin{align*} f(t)&=\int_0^{\infty} e^{i t x}\frac{\lambda^r}{\Gamma(r)} x^{r-1} e^{-\lambda x} d x \\ &=\int_0^{\infty}\frac{\lambda^r}{\Gamma(r)} x^{r-1} e^{-\left(\lambda -{i t}\right) x} d x \\ &=\left(1-\frac{i t}{\lambda}\right)^{-r} \end{align*}$$

最后一个等式需要用到 $\Gamma$ 函数的性质:

$$\int_0^{\infty} x^{r-1} e^{-\alpha x} d x = \frac{\Gamma(r)}{\alpha^r}$$

4.5.9 Example: 指数分布的特征函数

特别地,参数为 $\lambda$ 的指数分布 $\operatorname{Exp}(\lambda)$,即 $\Gamma(1,\lambda)$ 的特征函数为

$$f(t)=\left(1-\frac{i t}{\lambda}\right)^{-1}$$

4.5.10 Example: $\chi^2$ 分布的特征函数

同样地,参数 $n$$\chi^2$ 分布,即 $\Gamma\left(\frac{n}{2},\frac{1}{2}\right)$ 的特征函数为

$$f(t)=(1-2 i t)^{-\frac{n}{2}}$$

4.5.* Example: 正态分布的特征函数

正态分布 \(N(\mu, \sigma^2)\) 的特征函数为

\[f(t) = \exp\left\{i\mu t - \frac{1}{2}\sigma^2 t^2\right\}\]

Proof:

$$\begin{align*} f(t) &= \int_{-\infty}^{+\infty} \frac{1}{\sigma\sqrt{2\pi}} \exp \left\{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2 \right\} \exp \left\{itx \right\} d x \\ &= \int_{-\infty}^{+\infty} \frac{1}{\sigma\sqrt{2\pi}} \exp \left\{ -\frac{1}{2 \sigma ^2} \left( x^2 - 2 \mu x + \mu ^2 - 2 \sigma ^2 itx \right) \right\} d x \\ &= \int_{-\infty}^{+\infty} \frac{1}{\sigma\sqrt{2\pi}} \exp \left\{ -\frac{1}{2 \sigma ^2} \left[ x - (\mu + \sigma ^2 it) \right]^2 \right\} \exp \left\{ i \mu t - \frac{1}{2} \sigma ^2 t^2 \right\} dx \\ &= \exp \left\{ i \mu t - \frac{1}{2} \sigma ^2 t^2 \right\} \end{align*}$$

下面讨论特征函数的性质。

  1. $f(0) = 1, |f(t)| \leqslant 1, f(-t) = \overline{f(t)}$

  2. 特征函数在 $(-\infty, \infty)$ 上一致连续。

  3. 对于任意的正整数 $n$ 及任意实数 $t_1, t_2, \cdots, t_n$ 及复数 $\lambda_1, \lambda_2, \cdots, \lambda_n$,成立

    $$\sum_{k=1}^{n} \sum_{j=1}^{n} f(t_k - t_j) \lambda_k \overline{\lambda_j} \geq 0$$

  4. 两个相互独立的随机变量之和的特征函数等于它们的特征函数之积。一般的,若 $n$ 个独立整值随机变量之和的特征函数为这 $n$ 个随机变量的特征函数之积。

  5. 设随机变量 $\xi$ 有 n 阶矩存在,则它的特征函数可微分 n 次,且当 $k \leqslant n$ 时:$f^{(k)}(0) = i^k E\xi^k$
    该性质提供了计算随机变量的矩的一种方法。

  6. 若随机变量有 n 阶矩存在,则它的特征函数可作如下展开:

    $$f(t) = 1 + (it)E\xi + \frac{(it)^2}{2!}E\xi^2 + \cdots + \frac{(it)^n}{n!}E\xi^n + o(t^n)$$

  7. $\eta = a\xi + b$,这里 $a, b$ 为常数,则

    $$f_\eta(t) = e^{ibt} f_\xi(at)$$

Proof:

参见概率论基础第三版p249

4.5.2 Theorem: 唯一性定理

分布函数由其特征函数唯一决定。

分布函数的再生性

利用特征函数,可以很方便的研究分布的再生性,即可加性。

4.5.26 Example: 二项分布的卷积

$\xi_1 \sim B(m, p), \xi_2 \sim B(n, p)$,而且 $\xi_1$$\xi_2$ 独立,则 $\eta=\xi_1+\xi_2 \sim B(m+n, p)$

Proof:

事实上 $f_{\xi_1}(t)=\left(p e^{i t}+q\right)^m, f_{\xi_2}(t)=\left(p e^{i t}+q\right)^n$,由性质 4 知

$$f_n(t)=\left(p e^{i t}+q\right)^{m+n}$$

因此由唯一性定理知 $\eta$ 服从 $B(m+n, p)$
简记作

$$B(n_1, p) * B(n_2, p) = B(n_1+n_2, p)$$

4.5.27 Example: 泊松分布的卷积

$\xi_1 \sim P(\lambda_1), \xi_2 \sim P(\lambda_2)$,而且 $\xi_1$$\xi_2$ 独立,则 $\eta=\xi_1+\xi_2 \sim P(\lambda_1+\lambda_2)$

Proof:

事实上

$$f_{\xi_1}(t) = e^{\lambda_1(e^{it} - 1)}, \quad f_{\xi_2}(t) = e^{\lambda_2(e^{it} - 1)}$$

简记作

$$P(\lambda_1) * P(\lambda_2) = P(\lambda_1 + \lambda_2)$$

4.5.28 Example: 正态分布的卷积

$\xi_1 \sim N(\mu_1, \sigma_1^2), \xi_2 \sim N(\mu_2, \sigma_2^2)$,而且 $\xi_1$$\xi_2$ 独立,则 $\eta=\xi_1+\xi_2 \sim N(\mu_1+\mu_2, \sigma_1^2+\sigma_2^2)$

Proof:

事实上

$$f_{\xi_1}(t) = e^{i\mu_1 t - \frac{1}{2}\sigma_1^2 t^2}, \quad f_{\xi_2}(t) = e^{i\mu_2 t - \frac{1}{2}\sigma_2^2 t^2}$$

简记作

$$N(\mu_1, \sigma_1^2) * N(\mu_2, \sigma_2^2) = N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2)$$

4.5.29 Example: gamma分布的卷积

$\xi_1 \sim \Gamma(r_1, \lambda), \xi_2 \sim \Gamma(r_2, \lambda)$,而且 $\xi_1$$\xi_2$ 独立,则 $\eta=\xi_1+\xi_2 \sim \Gamma(r_1+r_2, \lambda)$

Proof:

事实上

$$\begin{align*} & f_{\xi_1}(t) = \left(1 - \frac{it}{\lambda}\right)^{-r_1}, \quad f_{\xi_2}(t) = \left(1 - \frac{it}{\lambda}\right)^{-r_2} \\ & f_\eta (t) = \left(1 - \frac{it}{\lambda}\right)^{-(r_1 + r_2)} \end{align*}$$

简记作

$$\Gamma(r_1, \lambda) * \Gamma(r_2, \lambda) = \Gamma(r_1 + r_2, \lambda)$$

特别地,$\chi_n^2$ 分布即为 $\Gamma\left(\frac{n}{2}, \frac{1}{2}\right)$,也具有再生性:

$$\chi_m^2 * \chi_n^2 = \chi_{m+n}^2$$

多元特征函数

多元正态分布

最后一步推导是通过伽马函数的性质来完成的,以下是详细的过程:

  1. 整理被积表达式:

    我们将积分表达式化简:

    $$f(t) = \int_0^{\infty} \frac{\lambda^r}{\Gamma(r)} x^{r-1} e^{-\lambda\left(1-\frac{i t}{\lambda}\right) x} d x$$

    将指数部分重新表示为:
    $$e^{-\lambda\left(1-\frac{i t}{\lambda}\right) x} = e^{-a x}, \quad \text{其中 } a = \lambda\left(1 - \frac{i t}{\lambda}\right) = \lambda - i t.$$

    整个积分变为:

    $$f(t) = \frac{\lambda^r}{\Gamma(r)} \int_0^{\infty} x^{r-1} e^{-a x} d x, \quad \text{其中 } a = \lambda - i t.$$

  2. 结合伽马函数的定义:

    伽马函数的定义为:

    $$\Gamma(r) = \int_0^{\infty} x^{r-1} e^{-x} d x.$$

    如果将 $x$ 替换为 $x/a$,则积分可以写为:
    $$\int_0^{\infty} x^{r-1} e^{-a x} d x = \frac{\Gamma(r)}{a^r}.$$

    将这一性质代入 $f(t)$ 的积分:

    $$f(t) = \frac{\lambda^r}{\Gamma(r)} \cdot \frac{\Gamma(r)}{a^r}.$$

  3. 整理结果:

    消去 $\Gamma(r)$

    $$f(t) = \frac{\lambda^r}{a^r}.$$

    代入 $a = \lambda - i t$
    $$f(t) = \left(\lambda - i t\right)^{-r}.$$

    再将 $a$ 表达为 $\lambda\left(1 - \frac{i t}{\lambda}\right)$,结果化简为:

    $$f(t) = \left(1 - \frac{i t}{\lambda}\right)^{-r}.$$

总结

关键在于:

  1. 将积分中指数部分改写为 $e^{-a x}$ 的形式;
  2. 利用伽马函数性质 $\int_0^{\infty} x^{r-1} e^{-a x} d x = \frac{\Gamma(r)}{a^r}$