第三章

Contents

第三章: 随机变量与分布函数
- 随机变量及其分布
- 随机向量、随机变量的独立性

第三章: 随机变量与分布函数

随机变量及其分布

随机变量$\eta$：将样本空间映射到实数集的函数，即$\Omega \stackrel{\eta }{\longrightarrow } \mathbb{R}^1$。将其称为变量只是因为历史原因，其本质是一个函数。
分布函数：$F_{\eta }(x) = P(\eta(\omega ) \le x)$，其中$F(x-0) = F(x)$

3.1.1 Definition: 随机变量定义

设$\xi (\omega )$是定义于概率空间$(\Omega, \mathcal{F}, P)$上的单值实函数，如果对于直线上任一博雷尔点集$B$，有$P(w : X(w) \in B) \in \mathcal{F}$，则称$(X)$为随机变量，而$P( \xi (\omega ) \in B)$称为随机变量$X$的概率分布。

3.1.2 Definition:分布函数定义

称
\[F(x) = P(\xi(\omega) < x), \quad -\infty < x < \infty\]

为随机变量$\xi(\omega)$的分布函数(distribution function)。

3.1.1 Theorem: 分布函数的性质

分布函数$F(\alpha)$具有下列性质：
(i) 单调性：若$a < b$，则$F(a) \leq F(b)$；
(ii) $\lim_{x \to -\infty} F(x) = 0, \quad \lim_{x \to +\infty} F(x) = 1$；
(iii) 左连续性：$F(\alpha-0) = F(\alpha)$。

Definition: 连续型随机变量

若随机变量$\xi \in [c,d]$，且其分布函数$F(x)$是绝对连续函数，即存在可积函数$p(x)$，使得

$$F(x) = \int_{-\infty}^{x} p(t)dt$$

则称$\xi$为连续型随机变量，$p(x)$为$\xi$的概率密度函数。

正态分布

一元分布，记为$N(\mu, \sigma^2)$

$$f(x|\mu, \sigma) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}$$

二元分布

$$f(x_1, x_2) = \frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}} \exp\left(-\frac{1}{2(1-\rho^2)}\left[\frac{(x_1-\mu_1)^2}{\sigma_1^2} - 2\rho\frac{(x_1-\mu_1)(x_2-\mu_2)}{\sigma_1\sigma_2} + \frac{(x_2-\mu_2)^2}{\sigma_2^2}\right]\right)$$

由于正态分布较为常见，所以对于服从$N(0 , 1)$的正态分布密度函数$\phi (x)$和分布函数$\Phi (x)$都制定了表格。服从$N(\mu , \sigma ^2)$的正态分布可以通过标准正态分布通过线性变换得到。
若 $\eta \sim N(\mu , \sigma ^2)$，则

$$\begin{array}l P(\eta \le x) = P\left(\frac{\eta - \mu}{\sigma} \le \frac{x - \mu}{\sigma}\right) = \Phi\left(\frac{x - \mu}{\sigma}\right) \\ P(a \le \eta \le b) = P\left(\frac{a - \mu}{\sigma} \le \frac{\eta - \mu}{\sigma} \le \frac{b - \mu}{\sigma}\right) = \Phi\left(\frac{b - \mu}{\sigma}\right) - \Phi\left(\frac{a - \mu}{\sigma}\right)\\ P(|\eta - \mu| \le kx) = P\left(-kx \le \frac{\eta - \mu}{\sigma} \le kx\right) = \Phi(kx) - \Phi(-kx) = 2\Phi(kx) - 1 \end{array}$$

又由于$\phi (x) = \phi(-x), \Phi (x) = 1- \Phi (x)$，所以一般只给出$x>0$的表格。

可以将二元分布函数进行分解

$N(\mu _1, \sigma _1^2)$ + $N(\mu _2+\rho \frac{\sigma _2}{\sigma _1}(x-\mu _1), \sigma _2^2(1-\rho ^2)$
$N(\mu _2, \sigma _2^2)$ + $N(\mu _1+\rho \frac{\sigma _1}{\sigma _2}(y-\mu _2), \sigma _1^2(1-\rho ^2)$

$n$元分布

$$f(\mathbf{x}) = \frac{1}{(2\pi)^{n/2}|\boldsymbol{\Sigma}|^{1/2}} \exp\left(-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right)$$

指数分布

记为$\operatorname{Exp}(\lambda), \lambda >0$。
分布函数

$$F(x) = 1 - e^{-\lambda x}, x \ge 0$$

密度函数

$$f(x) = \lambda e^{-\lambda x}, x \ge 0$$

无记忆性

$$p(\eta > s+t | \eta > s) = \frac{p(\eta > s+t )}{p(\eta > s)} = \frac{e^{-\lambda (s+t)}}{e^{-\lambda s}} = P(\eta > t)$$

可以证明，指数分布是唯一具有无记忆性的连续型分布。

Proof:

设$\eta \geq 0$，分布函数为$F(x)$，记

$$G(x) = P(\eta \geq x) = 1 - F(x)$$

则有

$$G(s+t) = P(\eta \geq s+t) = P(\eta \geq s, \eta \geq s+t) = P(\eta \geq s)P(\eta \geq t) = G(s)G(t)$$

由引理2.4.1 可知，$G(x) = a^x$，其中$0 < a < 1$，令$a = e^{-\lambda }, \lambda > 0$，则有$G(x) = e^{-\lambda x}$，即$F(x) = 1 - e^{-\lambda x}$。

埃尔朗分布

设$\xi(t)$ 是参数为 $\lambda t$ 的泊松过程，以 $W_r$ 记它的第$r$个跳跃发生的时刻.事件 $\{W_r<t\}$ 发生表明第$r$个跳跃出现在时刻$t$之前，因此事件 $\{\xi(t)\geqslant r\}$ 发生，即 $\{W_r<t\}\subset\{\xi(t)\geqslant r\}$;反之,若事件 $\{\xi(t)\geqslant r\}$ 发生,即在时刻 $t$ 时 $\xi(t)$ 之值不小于 $r$，这时第 $r$个跳跃已经出现过，因此事件 $\{W_r<t\}$ 发生，即有 $\{\xi(t)\geqslant r\}\subset\{W_r<t\}$。综上所述可知 $\{W_r<t\}=\{\xi(t)\geqslant r\}$。
以 $F(x)$ 记 $W_r$ 的分布函数，则

\[F(t) = P\{W_r < t\} = P\{\xi(t) \geqslant r\} = \sum_{k=r}^{\infty} \frac{(\lambda t)^k e^{-\lambda t}}{k!} = 1 - \sum_{k=0}^{r-1} \frac{(\lambda t)^k e^{-\lambda t}}{k!}\]

因此

$$\begin{aligned} p(t) & =F^{\prime}(t) \\ & =-\left[\sum_{k=0}^{r-1} \frac{(\lambda t)^k \mathrm{e}^{-\lambda t}(-\lambda)}{k!}+\sum_{k=0}^{r-1} \frac{k(\lambda t)^{k-1} \cdot \lambda \mathrm{e}^{-\lambda t}}{k!}\right] \\ & =\lambda \mathrm{e}^{-\lambda t} \sum_{k=0}^{r-1} \frac{(\lambda t)^k}{k!}-\lambda \mathrm{e}^{-\lambda t} \sum_{k=1}^{r-1} \frac{(\lambda t)^{k-1}}{(k-1)!} \\ & =\frac{\lambda(\lambda t)^{r-1}}{(r-1)!} \mathrm{e}^{-\lambda t}=\frac{\lambda^r}{\Gamma(r)} t^{r-1} \mathrm{e}^{-\lambda t} \end{aligned}$$

由于

$$\begin{aligned} \int_{0}^{\infty}\frac{\lambda^{r}}{\Gamma(r)} x^{r-1} e^{-\lambda x}d x \overset{t =\lambda x}{=} \frac{1}{\Gamma (r)} \int_{0}^{\infty} t^{r-1} e^{-t} d t = 1 \end{aligned}$$

所以对于$\forall \lambda >0, r \in \mathbb{N}^+$，有

$$p(x) = \frac{\lambda^r}{(r-1)!} x^{r-1} e^{-\lambda x}, x \geq 0$$

是一个密度函数。

2.3.6 Theorem: 埃尔朗分布

泊松过程中第 $r$ 次事件发生的时刻 $W_r$ 服从埃尔朗分布。

2.3.6 Definition: Gammar函数

形式为$\Gamma(x)=\int_{0}^{\infty} t^{x-1} e^{-t} dt$或$\Gamma(x)=\int_{0}^{1} (-\ln t)^{x-1} dt$的函数称为Gammar函数。

{注}：

$\Gamma(x+1)=x \Gamma(x)$。
$\Gamma(x)$函数可以当成是阶乘在实数集上的延拓。
$\Gamma(x)\Gamma(1-x)=\frac{\pi}{\sin(\pi x)}$。
原来只能定义一阶、二阶等整数阶导数，有了$\Gamma$ 函数我们可以把函数导数的定义延拓到实数集，从而可以计算 $\frac{1}{2}$ 阶导数, 同样的积分作为导数的逆运算也可以有分数阶。

2.3.7 Definition: Beta函数

形式为$B(x,y)=\int_{0}^{1} t^{x-1} (1-t)^{y-1} dt$的函数称为Beta函数。

2.3.8 Definition: Gamma分布

设密度函数为

$$f(x)=\left\{\begin{array}{cc}\frac{\lambda^r}{\Gamma(r)} x^{r-1} e^{-\lambda x},& x>0\\ 0,& x\leqslant 0\end{array}\right.$$

的分布称为 $\Gamma$ 分布，其中 $\lambda>0, r>0$ 为参数。简记作 $\Gamma(r,\lambda)$。$r$ 称为形状参数，$\lambda$ 称为尺度参数。

假设随机变量$X$为等到第$a$件事发生所需之等候时间，且每个事件之间的等待时间是互相独立的，$a$为事件发生的次数， $\beta$代表事件发生一次的概率，那么这 $a$个事件的时间之和服从伽马分布，即 $X \sim \Gamma(a, \beta)$。

可以看出当 $r = 1$ 时，$\Gamma(1, \lambda)$ 就是指数分布，当 $r = \frac{n}{2}, \lambda =\frac{1}{2}$ 时，$\Gamma( \frac{n}{2}, \frac{1}{2})$ 就是 $\chi^2$ 分布。
可以证明，两个独立随机变量 $X$ 和 $Y$，且 $X \sim \Gamma(a, \lambda )，Y \sim \Gamma(b, \lambda)$，则 $Z = X+Y \sim \Gamma (a+b, \lambda )$。即两个尺度参数相同的独立的伽马分布之和仍满足伽马分布，其尺度参数不变，而形状参数相加。

随机向量、随机变量的独立性

3.2.1 Definition: n维随机向量定义

若随机变量 $W_1, W_2, \ldots, W_n$ 定义在同一概率空间 $(\Omega, \mathcal{F}, P)$ 上，则称

$$\mathbf{W} = (W_1, W_2, \ldots, W_n)$$

构成一个 $n$ 维随机向量，亦称 $n$ 维随机变量。显然，一维随机向量即为随机变量。

3.2.2 Definition: 随机向量的联合分布函数

称 $n$ 元函数

$$F\left(x_{1}, x_{2}, \cdots, x_{n}\right) = P\left\{\xi_{1}(\omega) < x_{1}, \xi_{2}(\omega) < x_{2}, \cdots, \xi_{n}(\omega) < x_{n}\right\}$$

为随机向量 $\xi(\omega) = (\xi_1(\omega), \xi_2(\omega), \cdots, \xi_n(\omega))$ 的联合分布函数。

多元分布函数性质：
(i) 单调性：关于每个变元是单调不减函数。
(ii) 边界值：$F\left(x_1, x_2, \cdots, -\infty, \cdots, x_n\right) = 0, F(+\infty, +\infty, \cdots, +\infty) = 1$。
(iii) 左连续性：关于每个变元左连续。

3.2.8 Definition: 多元分布密度函数定义

存在着非负函数$p(x_1, \cdots, x_n)$，使得

\[F(x_1, \cdots, x_n) = \int_{-\infty}^{x_1} \cdots \int_{-\infty}^{x_n} p(y_1, \cdots, y_n) \, dy_1 \cdots dy_n\]

这里的$p(x_1, \cdots, x_n)$称为多元分布密度函数，满足如下两个条件：

\[p(x_1, \cdots, x_n) \geqslant 0\]

\[\int_{-\infty}^{\infty} \cdots \int_{-\infty}^{\infty} p(x_1, \cdots, x_n) \, dx_1 \cdots dx_n = 1\]

3.2.12 Definition:多元正态分布定义

若 $\Sigma = (\sigma_{ij})$ 是 $n$ 阶正定对称矩阵，以 $\Sigma^{-1} = (\gamma_{ij})$ 表示 $\Sigma$ 的逆阵；$\det \Sigma$ 表示 $\Sigma$ 的行列式的值。$\mu = (\mu_1, \cdots, \mu_n)$ 是任意实值行向量，则由密度函数

\[p(x_1, \cdots, x_n) = \frac{1}{(2\pi)^{\frac{n}{2}} (\det \Sigma)^{\frac{1}{2}}} \exp\left\{ -\frac{1}{2} \sum_{j, k=1}^n \gamma_{jk} (x_j - \mu_j)(x_k - \mu_k) \right\}\]

定义的分布称为 $n$ 元正态分布，简记为 $N(\mu, \Sigma)$。
这个密度函数也可以写成如下向量形式：

\[p(x) = \frac{1}{(2\pi)^{\frac{n}{2}} (\det \Sigma)^{\frac{1}{2}}} \exp\left\{ -\frac{1}{2} (x - \mu) \Sigma^{-1} (x - \mu)^T \right\}\]

这里 $(x - \mu)^T$ 表示行向量 $(x - \mu)$ 的转置。

3.2.20 Definition: 二维随机向量的边际分布函数

若 $(\xi, \eta)$ 是二维随机向量，其分布函数为 $F(x, y)$，我们能由 $F(x, y)$ 得出 $\xi$ 或 $\eta$ 的分布函数。

\[F_1(x) = P\{\xi < x\} = P\{\xi < x, \eta < +\infty\} = F(x, +\infty)\]

同理，

\[F_2(y) = P\{\eta < y\} = F(+\infty, y)\]

$F_1(x)$ 及 $F_2(y)$ 称为 $F(x, y)$ 的边际分布函数。

3.2.20 Definition: 二维随机向量的边际密度函数

若 $F(x, y)$ 是连续型分布函数，有密度函数 $p(x, y)$，那么

\[F_1(x) = \int_{-\infty}^x \int_{-\infty}^\infty p(u, y) \, du \, dy\]

因此 $F_1(x)$ 是连续型分布函数，其密度函数为

\[p_1(x) = \int_{-\infty}^{\infty} p(x, y) \, dy\]

同理 $F_2(y)$ 是连续型分布函数，其密度函数为

\[p_2(y) = \int_{-\infty}^{\infty} p(x, y) \, dx\]

$p_1(x)$ 及 $p_2(y)$ 称为 $p(x, y)$的边际密度函数。

3.2.3 Definition: 二元正态分布密度函数

二元正态分布密度函数定义为：

\[p(x, y) = \frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}} \exp\left\{ -\frac{1}{2(1-\rho^2)} \left[ \frac{(x-\mu_1)^2}{\sigma_1^2} - 2\rho\frac{(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2} + \frac{(y-\mu_2)^2}{\sigma_2^2} \right] \right\}\]

其中 $\mu_1, \mu_2, \sigma_1, \sigma_2, \rho$ 为常数，$\sigma_1 > 0, \sigma_2 > 0, |\rho| < 1$。简记为 $N(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho)$。

这是 $n$ 元正态分布当 $n=2$ 时的特殊情况，相应的：

\[\Sigma = \begin{pmatrix} \sigma_1^2 & \rho\sigma_1\sigma_2 \\ \rho\sigma_1\sigma_2 & \sigma_2^2 \end{pmatrix}, \mu = (\mu_1, \mu_2)\]

3.2.1 Theorem:二元正态密度的典型分解

二元正态密度函数具有如下两个分解式：

\[p(x, y) = \frac{1}{\sqrt{2\pi}\sigma_{1}} e^{-\frac{(x-\mu_{1})^{2}}{2\sigma_{1}^{2}}} \times \frac{1}{\sqrt{2\pi}\sigma_{2}\sqrt{1-\rho^{2}}} e^{-\frac{\left[y-\left(\mu_{2}+\rho\frac{\sigma_{2}}{\sigma_{1}}(x-\mu_{1})\right)\right]^{2}}{2\sigma_{2}^{2}(1-\rho^{2})}}\]

\[p(x, y) = \frac{1}{\sqrt{2\pi}\sigma_{2}} e^{-\frac{(y-\mu_{2})^{2}}{2\sigma_{2}^{2}}} \times \frac{1}{\sqrt{2\pi}\sigma_{1}\sqrt{1-\rho^{2}}} e^{-\frac{\left[x-\left(\mu_{1}+\rho\frac{\sigma_{1}}{\sigma_{2}}(y-\mu_{2})\right)\right]^{2}}{2\sigma_{1}^{2}(1-\rho^{2})}}\]

Proof:

将方括号内的 $\frac{(x-\mu_1)^2}{\sigma_1^2}$ 分解成 $(1-\rho^2)\frac{(x-\mu_1)^2}{\sigma_1^2} + \rho^2\frac{(x-\mu_1)^2}{\sigma_1^2}$，并把系数和指数都分解成两部分。这样可以得到：

$$\begin{align} p(x, y) &= \frac{1}{\sqrt{2\pi}\sigma_1} e^{-\frac{(x-\mu_1)^2}{2\sigma_1^2}} \times \frac{1}{\sqrt{2\pi}\sigma_2\sqrt{1-\rho^2}} \exp\left\{ -\frac{1}{2(1-\rho^2)} \left[ \rho^2\frac{(x-\mu_1)^2}{\sigma_1^2} - 2\rho\frac{(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2} + \frac{(y-\mu_2)^2}{\sigma_2^2} \right] \right\} \\ &= \frac{1}{\sqrt{2\pi}\sigma_1} \exp \left\{{-\frac{(x-\mu_1)^2}{2\sigma_1^2}}\right\} \times \frac{1}{\sqrt{2\pi}\sigma_2\sqrt{1-\rho^2}} \times \exp \left\{{-\frac{1}{2(1-\rho^2)} \left[ \frac{y-\mu_2}{\sigma_2} - \rho\frac{x-\mu_1}{\sigma_1} \right]^2} \right\} \end{align}$$

{注}：

二元正态分布的密度函数可以分解为两个一元正态分布密度函数的乘积。
$N(\mu_1, \sigma_1^2)$ + $N\left(\mu_2 + \rho\frac{\sigma_2}{\sigma_1}(x - \mu_1), \sigma_2^2(1 - \rho^2)\right)$。
$N(\mu_2, \sigma_2^2)$ + $N\left(\mu_1 + \rho\frac{\sigma_1}{\sigma_2}(y - \mu_2), \sigma_1^2(1 - \rho^2)\right)$。

下面考察二元正态分布的边际分布。

$$\begin{aligned} p_1(x)=\int_{-\infty}^{\infty} p(x, y) d y&= \frac{1}{\sqrt{2\pi}\sigma_1} \exp \left\{-\frac{\left(x-\mu_1\right)^2}{2\sigma_1^2} \right\} \cdot \int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}\sigma_2\sqrt{1-\rho^2}} \exp \left\{-\frac{\left[y-\left(\mu_2+\rho\frac{\sigma_2}{\sigma_1}\left(x-\mu_1\right)\right)\right]^2}{2\sigma_2^2\left(1-\rho^2\right)}\right\} d y\\ &=\frac{1}{\sqrt{2\pi}\sigma_1} \exp \left\{ -\frac{\left(x-\mu_1\right)^2}{2\sigma_1^2} \right\} \end{aligned}$$

是 $N\left(\mu_1,\sigma_1^2\right)$ 的密度函数。

同理

$$p_2(y)=\frac{1}{\sqrt{2\pi}\sigma_2} \exp \left\{ -\frac{\left(y-\mu_2\right)^2}{2\sigma_2^2} \right\}$$

是$N\left(\mu_2,\sigma_2^2\right)$ 的密度函数。
因此二元正态分布的边际分布仍为正态分布，这是一个重要的结论。

条件分布

3.2.25 Definition: 离散变量条件概率

若已知$\xi=x_i\left(p_1\left(x_i\right)>0\right)$,则事件$\left\{\eta=y_j\right\}$的条件概率为

$$P\left\{\eta=y_j\mid\xi=x_i\right\}=\frac{P\left\{\xi=x_i,\eta=y_j\right\}}{P\left\{\xi=x_i\right\}}=\frac{p\left(x_i, y_j\right)}{p_1\left(x_i\right)}$$

Definition: 连续变量条件概率

$$P(\eta < y | \xi =x) = \frac{P(\eta \le y, \xi = x)}{P(\xi = x)} = \frac{f_{\eta , \xi }(y,x)}{f_{\xi }(x)}$$

Example: 正态分布的分解式含义

二元正态分布条件密度函数：

$$p(y \mid x) = \frac{p(x, y)}{p_1(x)} = \frac{1}{\sqrt{2\pi}\sigma_2\sqrt{1-\rho^2}} e^{-\frac{\left[y-\left(\mu_2+\rho\frac{\sigma_2}{\sigma_1}\left(x-\mu_1\right)\right)\right]^2}{2\sigma_2^2\left(1-\rho^2\right)}}$$

从这里我们看到，二元正态分布的条件分布仍然是正态分布，且对于二元正态分布的分解式的含义完全清楚了，即 $p(x,y) = p_1(x) p(y \mid y)$的特例。

$$N\left(\mu_2+\rho\frac{\sigma_2}{\sigma_1}\left(x-\mu_1\right),\sigma_2^2\left(1-\rho^2\right)\right)$$

独立性

3.2.3 Definition: 独立随机变量

设 $\xi_1, \cdots, \xi_n$ 为 $n$ 个随机变量，若对于任意的 $x_1, \cdots, x_n$ 成立

$$P\left\{\xi_1 < x_1, \cdots, \xi_n < x_n\right\} = P\left\{\xi_1 < x_1\right\} \cdots P\left\{\xi_n < x_n\right\}$$

则称 $\xi_1, \cdots, \xi_n$ 是相互独立的.

若 $\xi_i$ 的分布函数为 $F_i(x), i=1,2,\cdots, n$，它们的联合分布函数为 $F(x_1,\cdots, x_n)$，则等价于对一切 $x_1,\cdots, x_n$ 成立

$$F(x_1,\cdots, x_n) = F_1(x_1) \cdots F_n(x_n)$$

对离散型随机变量$\eta _1, \eta _2, \cdots, \eta _n$，独立性等价于对于任意的$x_1, x_2, \cdots, x_n$有

$$P\{\xi_1 = x_1, \cdots, \xi_n = x_n\} = P\{\xi_1 = x_1\}\cdots P\{\xi_n = x_n\}$$

对于连续型随机变量，独立性等价于对于任意的$x_1, x_2, \cdots, x_n$有

$$p(x_1, x_2, \cdots, x_n) = p_1(x_1)p_2(x_2) \cdots p_n(x_n)$$

Example: 正态分布的独立性

对由二元正态分布，有

$$p_1(x) p_2(y) = \frac{1}{2\pi\sigma_1\sigma_2}\exp\left\{-\frac{(x-\mu_1)^2}{2\sigma_1^2} - \frac{(y-\mu_2)^2}{2\sigma_2^2}\right\}$$

与二元正态分布的定义比较可知，使关系式上式成立的充要条件是

$$\rho = 0$$

即服从二元正态分布的随机变量独立的充要条件是 $\rho = 0$，这时条件分布化为

$$p(y \mid x) = \frac{1}{\sqrt{2\pi}\sigma_2} e^{-\frac{(y-\mu_2)^2}{2\sigma_2^2}} = p_2(y)$$

Example: 均匀分布独立性

若 $(\xi, \eta)$ 服从 $G = \{(x, y) : a \leqslant x \leqslant b, c \leqslant y \leqslant d\}$ 上的均匀分布，即其联合密度函数为

$$p(x, y) = \left\{ \begin{array}{ll} \frac{1}{(b-a)(c-d)}, & a \leqslant x \leqslant b, c \leqslant y \leqslant d \\ 0, & \text{其他} \end{array} \right.$$

则 $\xi \sim U[a, b], \eta \sim U[c, d]$，且它们相互独立。

3.2.37 Theorem: 随机变量的独立性

随机变量 $\xi_1, \xi_2, \cdots, \xi_n$ 相互独立的充要条件是对一切一维博雷尔点集 $A_1, A_2, \cdots, A_n$ 成立

$$P\left\{\xi_1 \in A_1, \xi_2 \in A_2, \cdots, \xi_n \in A_n\right\} = P\left\{\xi_1 \in A_1\right\} P\left\{\xi_2 \in A_2\right\} \cdots P\left\{\xi_n \in A_n\right\}$$

Proof:

论断的证明要用到测度论，已超出本课程范围。

显然若 $\xi_1, \xi_2, \cdots, \xi_n$ 相互独立，则它们的任意函数任意$r(2 \leq r < n)$个随机变量也相互独立。

Example: 正态分布的导出

从测量误差中导出的误差函数。

Proof:

在测量中，若 $\mu$ 为真值，$x_i$ 为观察值，而误差 $x_i - \mu$ 的密度函数为 $p(x_i - \mu)$。经验表明 $p(x)$ 关于 $x = 0$ 对称，而且对一切 $x$ 成立 $p(x) > 0$。为推导方便起见，还假设 $p(x)$ 具有连续导函数。
如果有独立同分布的观察值 $x_1, x_2, \cdots, x_n$，则其似然函数为

$$L(\mu) = \prod_{i=1}^n p(x_i - \mu),$$

它表征了这组观察值落在 $\mu$ 的附近的可能性的大小。高斯的假定是：观察值的平均值

$$\bar{x} = \frac{1}{n}(x_1 + x_2 + \cdots + x_n)$$

作为未知参数 $\mu$ 的估值使 $L(\mu)$ 达到最大。

若 $\bar{x}$ 使似然函数 $L(\mu)$ 达到最大，则

$$\left.\frac{d\ln L(\mu)}{d\mu}\right|_{\mu=\bar{x}}=0$$

记 $\frac{d\ln p(x)}{d x}=g(x)$，则 $g(x)=\frac{p^{\prime}(x)}{p(x)}$，由假设知道它好定义而且是连续函数。这时有

$$\sum_{i=1}^n g\left(x_i-\bar{x}\right)=0$$

当 $n=3$ 时，方程化为

$$g\left(x_1-\bar{x}\right)+g\left(x_2-\bar{x}\right)+g\left(x_3-\bar{x}\right)=0$$

由于 $x_1-\bar{x}=-\left[\left(x_2-\bar{x}\right)+\left(x_3-\bar{x}\right)\right]$，可知对一切实数 $x, y$ 成立

$$g(x)+g(y)=g(x+y)$$

事实上，若记 $f(x)=e^{g(x)}$，则方程化为

$$f(x) f(y)=f(x+y)$$

这方程对一切 $x, y$ 成立，且 $f(x)$ 是连续函数，因此由引理 2.4.1 知 $f(x)=a^x, a\geqslant 0$，从而得知

$$g(x)=b x$$

因此

$$\begin{gathered} \ln p(x)=\frac{b}{2} x^2+c\\ p(x)=e^{\frac{b}{2} x^2+c},\quad-\infty<x<+\infty \end{gathered}$$

$p(x)$ 为密度函数，因此 $b<0$，记 $b=-\frac{1}{\sigma^2}$，则

$$p(x)=K e^{-\frac{x^2}{2\sigma^2}},\quad-\infty<x<+\infty$$

由规范化条件$\int_{-\infty}^{+\infty} p(x) d x=1$ 知 $K=\frac{1}{\sqrt{2\pi\sigma}}$,故

$$p(x)=\frac{1}{\sqrt{2\pi\sigma}} e^{-\frac{x^2}{2\sigma^2}},\quad-\infty<x<+\infty$$

这就是著名的误差函数,即正态分布密度函数.

随机变量的函数

3.3.1 Definition: 一维博雷尔函数

设 $y=g(x)$ 是 $R^1$ 到 $R^1$ 上的一个映照，若对于一切 $R^1$ 中的博雷尔点集 $B_1$ 均有

$$\left\{x: g(x)\in B_1\right\}\in\mathscr{B}_1$$

其中 $\mathscr{B}_1$ 为 $R^1$ 上博雷尔 $\sigma$ 域，则称 $g(x)$ 是一元博雷尔（可测）函数。

3.3.2 Definition: $n$元博雷尔函数

设 $y=g\left(x_1,\cdots, x_n\right)$ 是 $R^n$ 到 $R^1$ 上的一个映照，若对一切 $R^1$ 中的博雷尔点集 $B_1$ 均有

$$\left\{\left(x_1,\cdots, x_n\right): g\left(x_1,\cdots, x_n\right)\in B_1\right\}\in\mathcal{B}_n$$

其中 $\mathcal{B}_n$ 为 $R^n$ 上博雷尔 $\sigma$ 域，则称 $g\left(x_1,\cdots, x_n\right)$ 为 n元博雷尔（可测）函数。

Example: 离散卷积公式

若 $\xi$ 与 $\eta$ 是相互独立的随机变量，它们都取非负整数值，其概率分布分别为 $\left\{a_k\right\}$ 及 $\left\{b_k\right\}$，下面我们来计算随机变量 $\zeta=\xi+\eta$ 的概率分布。因为

$$\begin{align*} \{\zeta=r\}=&\{\xi=0,\eta=r\}+\{\xi=1,\eta=r-1\}+\cdots\\ &+\{\xi=r,\eta=0\} \end{align*}$$

利用独立性的假定得到

$$c_r=P\left\{\zeta=r\right\}=a_0 b_r+a_1 b_{r-1}+\cdots+a_r b_0,\quad r=0,1,2,\cdots$$

这就是求独立随机变量和的分布的公式——离散卷积公式。

随机变量函数的分布律

一般问题：已知随机变量 $\xi$ 的分布函数 $F(x)$ 或密度函数 $p(x)$，要求 $\eta=g(\xi)$ 的分布函数 $G(y)$ 或密度函数 $q(y)$。

考虑如下公式：

$$\begin{align*} G(y) &= P\{\eta<y\} = P\{g(\xi)<y\} \\ &= \int_{g(x)<y} p(x) \, dx \end{align*}$$

上述积分计算的难易既与被积函数即 $\xi$ 的密度函数 $p(x)$ 的表达式有关，更与积分区域 $\{x: g(x)<y\}$ 的形状相关，差别很大，因此这类问题通常采用个案处理的方式，但在方法上大体可分为直接法与变换法两类。

1.转换法
当$y=g(x)$单调时：

$$G(y) = P(\eta \le y) = P(g(x) \le y) = P(x \le g^{-1}(y)) = F(g^{-1}(y))$$

当$y=g(x)$分段单调时

$$G(y) = \sum P(x \in A_i) = \sum P(g(x) \in B_i) = \sum P(y \in B_i) = \sum F(g^{-1}(y))$$

Example: 对数正态分布

若 $\xi \sim N(\mu, \sigma^2)$，$\eta = e^{\xi}$ 的密度函数为：

$$q(y) = \frac{1}{\sqrt{2\pi}\sigma y} e^{-\frac{(\ln y - \mu)^2}{2\sigma^2}}, \quad y > 0$$

Proof:

当 $y > 0$ 时，

$$\begin{align*} P\{\eta < y\} &= P\{e^{\xi} < y\} = P\{\xi < \ln y\} \\ &= \int_{-\infty}^{\ln y} \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \, dx \end{align*}$$

所以，$\eta$ 的密度函数为

$$q(y) = \frac{1}{\sqrt{2\pi}\sigma y} e^{-\frac{(\ln y - \mu)^2}{2\sigma^2}}, \quad y > 0$$

$\eta$ 的对数即 $\ln \eta = \xi$ 服从正态分布，故称 $\eta$ 所服从的分布为对数正态分布。

Example: 卡方分布

具有密度函数：

$$\begin{aligned} p(x) &= \frac{1}{2^{n/2}\Gamma\left(\frac{n}{2}\right)} x^{\frac{n}{2}-1} e^{-\frac{x}{2}}, \quad x > 0 \end{aligned}$$

的分布称为具有自由度 $n$ 的 $\chi^2$ 分布。

2.变换法
若 $g(x)$ 严格单调，其反函数 $g^{-1}(y)$ 有连续导函数，则 $\eta = g(\xi)$ 是具有密度函数

$$p(\eta) = p(g^{-1}(y))\left|\frac{d}{dy}g^{-1}(y)\right|$$

Proof:

对于任一实数 $a$，记使 $g(x) < a$ 成立的 $x$ 的值的范围为 $E(a)$，则

$$\begin{align*} P\{\eta < a\} &= P\{g(\xi) < a\} = P\{\xi \in E(a)\} \\ &= \int_{E(a)} p(x) \, dx = \int_{-\infty}^a p\left[g^{-1}(y)\right] \left| \left[g^{-1}(y)\right]' \right| \, dy \end{align*}$$

的连续型随机变量。这里的绝对值是因为 $g(x)$ 可能是单调递减的。

Example: 柯西分布

若 $\theta$ 服从 $\left[-\frac{\pi}{2}, \frac{\pi}{2}\right]$ 的均匀分布，$\psi = \tan \theta$的分布称为柯西分布。

记 $y = \tan x$，则 $x = \tan^{-1} y$，$\frac{dx}{dy} = \frac{1}{1+y^2}$，因此

$$q(y) = \frac{1}{\pi} \cdot \frac{1}{1+y^2}, -\infty < y < \infty$$

若 $g(x)$ 在不相重叠的区间 $I_1, I_2, \cdots$ 上逐段严格单调，其反函数分别为 $h_1(y), h_2(y), \cdots$ 而且 $h'_1(y), h'_2(y), \cdots$ 均为连续函数，那么 $\eta = g(\xi)$ 是连续型随机变量，其密度函数为

$$p\left[h_1(y)\right]\left|h'_1(y)\right| + p\left[h_2(y)\right]\left|h'_2(y)\right| + \cdots$$

Example: 均匀分布的特殊地位

若随机变量 $\xi$ 的分布函数为 $F(x)$，因为 $F(x)$ 是非降函数，对任意 $0 \leqslant y \leqslant 1$，可定义

$$F^{-1}(y) = \inf\{x: F(x) > y\}$$

作为 $F(x)$ 的反函数。

下面考察随机变量 $\theta = F(\xi)$ 的分布，这里 $F(x)$ 是连续函数。对 $0 \leqslant x \leqslant 1$，

$$\begin{align*} & P\{\theta < x\} = P\{F(\xi) < x\} \\ = & P\{\xi < F^{-1}(x)\} = F(F^{-1}(x)) = x \end{align*}$$

即 $\theta = F(\xi)$ 服从 $[0,1]$ 均匀分布。
反之，若 $\theta$ 服从 $[0,1]$ 均匀分布，对任意分布函数 $F(x)$，令

$$\xi = F^{-1}(\theta)$$

则

$$P\left\{\xi < x\right\} = P\left\{F^{-1}(\theta) < x\right\} = P\{\theta < F(x)\} = F(x)$$

因此 $\xi$ 是服从分布函数 $F(x)$ 的随机变量。

3.3.1 Theorem: 随机变量存在性

若$F(x)$是左连续的单调不减函数，且$F(-\infty) = 0, F(+\infty) = 1$，则存在一个概率空间$(\Omega, \mathscr{F}, P)$及其上的随机变量$\xi(\omega)$，使$\xi(\omega)$的分布函数正好是$F(x)$。

Proof:

取$\Omega = [0,1]$，再取$\mathscr{F}$为$[0,1]$中博雷尔点集全体，而$P$取为直线上的勒贝格测度（它是长度概念的推广，但对一切博雷尔点集都有定义）。定义$\theta(\omega) = \omega$，则$\theta(\omega)$是$(\Omega, \mathscr{F}, P)$上的随机变量，又对一切$0 \leqslant x \leqslant 1$，

$$P\{\theta(\omega) < x\} = P\{\omega \in [0, x)\} = x$$

因此$\theta(\omega)$服从$[0,1]$上均匀分布。
再利用定义$F^{-1}(y)$，当然它也是单调函数，从而是博雷尔函数，令

$$\xi(\omega) = F^{-1}(\theta(\omega))$$

则$\xi(\omega)$是$(\Omega, \mathscr{F}, P)$上的随机变量，而且仿上段讨论可知，它的分布函数正好是$F(x)$。

随机向量的函数的分布律

若 $\eta = g(\xi_1, \cdots, \xi_n)$，而 $(\xi_1, \cdots, \xi_n)$ 的密度函数为 $p(x_1, \cdots, x_n)$，则同上面一样讨论可以得到

$$\begin{align*} G(y) = P\{\eta < y\} &= \int \cdots \int_{g(x_1, \cdots, x_n) < y} p(x_1, \cdots, x_n) \, dx_1 \cdots dx_n \end{align*}$$

Example: 和的分布

若 $\eta = \xi_1 + \xi_2$，而 $(\xi_1, \xi_2)$ 的密度函数为 $p(x_1, x_2)$，则

$$\begin{align*} G(y) &= P\{\eta < y\} = \int_{x_1 + x_2 < y} \int_{x_1} p(x_1, x_2) \, dx_1 \, dx_2 \\ &= \int_{-\infty}^{\infty} \int_{-\infty}^{y - x_1} p(x_1, x_2) \, dx_1 \, dx_2 \end{align*}$$

特别当 $\xi_1, \xi_2$ 相互独立时，有 $p(x_1, x_2) = p_1(x_1) p_2(x_2)$，这里 $p_1(x_1)$ 为 $\xi_1$ 的密度函数，$p_2(x_2)$ 为 $\xi_2$ 的密度函数。代入得

$$\begin{align*} G(y) &= \int_{-\infty}^{\infty} \left[ \int_{-\infty}^{y - x_1} p_1(x_1) p_2(x_2) \, dx_2 \right] dx_1 \\ &= \int_{-\infty}^{\infty} \left[ \int_{-\infty}^{y} p_1(x_1) p_2(z - x_1) \, dz \right] dx_1 \\ &= \int_{-\infty}^{y} \left[ \int_{-\infty}^{\infty} p_1(x_1) p_2(z - x_1) \, dx_1 \right] dz \end{align*}$$

因此 $\eta$ 的密度函数为

$$q(y) = \int_{-\infty}^{\infty} p_1(u) p_2(y - u) \, du$$

也可写为

$$q(y) = \int_{-\infty}^{\infty} p_1(y - u) p_2(u) \, du$$

上式称为卷积公式，在概率论中相当重要。

Example: 商的分布

若 $\eta = \frac{\xi_1}{\xi_2}$，而 $(\xi_1, \xi_2)$ 的密度函数为 $p(x_1, x_2)$，则

$$\begin{align*} G(x) &= P\left\{\eta < x\right\} = P\left\{\frac{\xi_1}{\xi_2} < x\right\} = \iint_{x_1/x_2 < x}f(x,y)dxdy \\ &= \int_{0}^{\infty} \left[ \int_{-\infty}^{zx} p(y, z) dy \right ] dz + \int_{-\infty}^{\infty} \left[ \int_{x_2}^{\infty} p(y, z) dy \right] dz \end{align*}$$

$\eta$的密度函数为

$$\begin{align*} q(x) &= \int_0^{\infty} p(z x, z) z \, dz - \int_{-\infty}^{0} p(z x, z) z \, dz \\ &= \int_{-\infty}^{\infty} |z| p(z x, z) \, dz \end{align*}$$

Definition: 顺序统计量

若$\eta _1, \eta_2, \cdots, \eta_n$ 是来自同一分布的$n$个独立同分布的随机变量，$F(x)$是其分布函数，$f(x)$是其密度函数，$F_n(x)$是其顺序统计量的分布函数，$f_n(x)$是其密度函数。若按照某一次实验的结果的大小顺序排列，第$i$个实验的结果记为$\eta _{(i)}$，则有

$$\eta^* _1 \le \eta _2^* \le \cdots \le \eta _n ^*$$

极大值$\eta ^*_n$的分布函数为

$$P(\eta _n^* \le x) = P(\eta _1 \le x, \eta _2 \le x, \cdots, \eta _n \le x) = F(x)^n$$

极小值$\eta _1^*$的分布函数为

$$P(\eta _1^* \le x) = 1 - P(\eta _1 > x, \eta _2 > x, \cdots, \eta _n > x) = 1 - (1-F(x))^n$$

进一步，讨论 $(\xi_1^*, \xi_n^*)$ 的联合分布。

记 $G(x, y) = P\{\xi_1^* < x, \xi_n^* < y\}$。

若 $x \geqslant y$，则

$$\begin{align*} G(x, y) &= P\{\xi_1^* < x, \xi_n^* < y\} \\ &= P\{\xi_n^* < y\} = [F(y)]^n \end{align*}$$

若 $x < y$，则

$$\begin{align*} G(x, y) &= P\{\xi_1^* < x, \xi_n^* < y\} \\ &= P\{\xi_n^* < y\} - P\{\xi_1^* \geqslant x, \xi_n^* < y\} \\ &= P\{\xi_n^* < y\} - P\{ x \leqslant \xi _i < y \} \\ &= [F(y)]^n - [F(y) - F(x)]^n \end{align*}$$

其联合密度函数为

$$\begin{align*} q(x, y) &= \left\{ \begin{array}{l} 0, \quad x \geqslant y \\ n(n-1) [F(y) - F(x)]^{n-2} p(x) p(y), \quad x < y \end{array} \right. \end{align*}$$

Definition: 极差

设 $R = \xi_n^* - \xi_1^*$，其密度函数为 $f_R(r)$。

对 $r \leqslant 0, f_R(r) = 0$，若 $r > 0$，则

$$\begin{align*} P\left\{R < r\right\} &= \iint_{y-x < r} q(x, y) \, dx \, dy \\ &= \int_{-\infty}^{\infty} \left[ \int_{-\infty}^{x+r} q(x, y) \, dy \right] \, dx \\ &= \int_{-\infty}^{\infty} \left[ \int_{-\infty}^{r} q(x, x+z) \, dz \right] \, dx \\ &= \int_{-\infty}^{r} \left[ \int_{-\infty}^{\infty} q(x, x+z) \, dx \right] \, dz \end{align*}$$

因此

$$\begin{align*} f_R(r) &= \int_{-\infty}^{\infty} q(x, x+r) dx \\ &= n(n-1) \int_{-\infty}^{\infty} [F(x+r) - F(x)]^{n-2}p(x) p(x+r) dx \end{align*}$$

随机向量的变换

若 $(\xi_1, \cdots, \xi_n)$ 的密度函数为 $p(x_1, \cdots, x_n)$，求 $\eta_1 = g_1(\xi_1, \cdots, \xi_n), \cdots, \eta_m = g_m(\xi_1, \cdots, \xi_n)$ 的分布。这时有

$$\begin{align*} & G(y_1, \cdots, y_m) = P\{\eta_1 < y_1, \cdots, \eta_m < y_m\} \\ &= \int \cdots \int p(x_1, \cdots, x_n) \, dx_1 \cdots dx_n \\ & \quad g_m(x_1, \cdots, x_n) < y_m \end{align*}$$

显然，这是最一般的场合。当 $m = 1$ 时便是随机向量的函数的情形，当 $m = n = 1$ 时得到单个随机变量的函数的情形。下面考虑另一个重要的特殊情形，即当 $(\xi_1, \cdots, \xi_n)$ 与 $(\eta_1, \cdots, \eta_m)$ 有一一对应变换关系时，当然这时 $n = m$ 必须成立。

如果对 $y_i = g_i(x_1, \cdots, x_n), i = 1, 2, \cdots, n$，存在唯一的反函数 $x_i(y_1, \cdots, y_n) = x_i(i = 1, \cdots, n)$，而且 $(\eta_1, \cdots, \eta_n)$ 的密度函数为 $q(y_1, \cdots, y_n)$，那么

$$\begin{align*} G(y_1, \cdots, y_n) &= \underset{{u_1 < y_1, \cdots , u_n < y_n}}{\int \cdots \int} q(u_1, \cdots, u_n) \, du_1 \cdots du_n \end{align*}$$

则有

$$\begin{align*} q(y_1, \cdots, y_n) &= \left\{ \begin{array}{l} p(x_1(y_1, \cdots, y_n), \cdots, x_n(y_1, \cdots, y_n)) |J|, \text{若} (y_1, \cdots, y_n) \in \text{range}(g_i) \\ 0, \quad \text{其他} \end{array} \right. \end{align*}$$

其中 $J$ 为坐标变换的雅可比行列式

$$J = \left| \begin{array}{ccc} \frac{\partial x_1}{\partial y_1} & \cdots & \frac{\partial x_1}{\partial y_n} \\ \vdots & \vdots & \vdots \\ \frac{\partial x_n}{\partial y_1} & \cdots & \frac{\partial x_n}{\partial y_n} \end{array} \right|$$

Example: 卡方分布可加性

若 $\xi$ 与 $\eta$ 相互独立，分别服从自由度为 $m$ 和 $n$ 的 $\chi^2$ 分布，试求 $\alpha = \xi + \eta$ 与 $\beta = \frac{\xi}{\eta} \cdot \frac{n}{m}$ 的密度函数 $q(u, v)$.

$(\xi, \eta)$ 的联合密度函数为

$$p(x, y) = p(x) p(y) = \frac{1}{2^{\frac{m+n}{2}} \Gamma\left(\frac{m}{2}\right) \Gamma\left(\frac{n}{2}\right)} x^{\frac{m}{2}-1} y^{\frac{n}{2}-1} e^{-\frac{x+y}{2}}, \forall x, y > 0$$

对 $u > 0, v > 0$ 作变换 $u = x + y, v = \frac{x}{y} \cdot \frac{n}{m}$，其逆变换为：

$$x = \frac{m u v}{n + m v}, \quad y = \frac{n u}{n + m v}.$$

由于

$$\begin{align*} J^{-1} &= \left| \begin{array}{ccc} \frac{\partial u}{\partial x} & \frac{\partial u}{\partial y} \\ \frac{\partial v}{\partial x} & \frac{\partial v}{\partial y} \end{array} \right| = \left| \begin{array}{ccc} 1 & 1 \\ \frac{n}{y m} & -\frac{x n}{y^{2} m} \end{array} \right| = -\frac{n(x+y)}{m y^{2}} \\ &= -\frac{n}{m} \cdot \frac{\left(1 + \frac{m}{n} v\right)^{2}}{u} \end{align*}$$

因此

$$|J| = \frac{m}{n} \cdot \frac{u}{\left(1 + \frac{m}{n} v\right)^2}$$

于是 $(\alpha, \beta)$ 的联合分布密度函数为

$$\begin{align*} q(u, v) &= \frac{1}{2^{\frac{m+n}{2}} \Gamma\left(\frac{m}{2}\right) \Gamma\left(\frac{n}{2}\right)} \exp \left\{-\frac{u}{2}\right\} \left(\frac{m}{n}\right)^{\frac{m}{2}-1} u^{\frac{m+n}{2} - 2} \\ &\times \frac{v^{\frac{m}{2}-1}}{\left(1+\frac{m}{n} v\right)^{\frac{m+n}{2}-2}} \cdot \frac{m}{n} \cdot \frac{u}{\left(1+\frac{m}{n} v\right)^2} \\ = & \frac{1}{2^{\frac{m+n}{2}} \Gamma\left(\frac{m+n}{2}\right)} {u^{\frac{m+n}{2}-1}} e^{-\frac{u}{2}} \\ & \times \frac{\Gamma\left(\frac{m+n}{2}\right) \cdot \left(\frac{m}{n}\right)^{\frac{m}{2}} v^{\frac{m}{2}-1}}{\Gamma\left(\frac{m}{2}\right) \Gamma\left(\frac{n}{2}\right) \cdot \left(1+\frac{m}{n} v\right)^{\frac{m+n}{2}}} \end{align*}$$

由此可见 $\alpha = \xi + \eta$ 与 $\beta = \frac{\xi}{\eta} \cdot \frac{n}{m}$ 相互独立且 $\alpha$ 服从自由度为 $m+n$ 的 $\chi^2$ 分布。而 $\beta$ 服从自由度为 $F$ 分布。

当 $m < n$ 时，可以通过增补变量再使用变换法求解。
Example: $t$分布

设 $\xi, \eta$ 为两个独立随机变量，$\xi$ 服从 $N(0,1), \eta$ 服从自由度为 $n$ 的 $\chi^2$ 分布，令 $T = \xi / \sqrt{\frac{\eta }{n}}$，试求 $T$ 的密度函数。

为求得 $T$ 的密度函数，引进增补变量 $S = \eta$，先求 $(S, T)$ 的联合密度函数。

$\xi, \eta$ 相互独立，故 $(\xi, \eta)$ 的联合密度函数为

$$p(x, y) = \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} \cdot \frac{1}{2^{n/2} \Gamma\left(\frac{n}{2}\right)} y^{\frac{n}{2}-1} e^{-\frac{y}{2}} \quad -\infty < x < \infty, y > 0$$

变换 $s = y, t = \frac{x}{\sqrt{y/n}}$ 的逆变换为 $x = t\left(\frac{s}{n}\right)^{1/2}, y = s$，其雅可比行列式

$$J = \left| \begin{array}{cc} \frac{\partial x}{\partial s} & \frac{\partial x}{\partial t} \\ \frac{\partial y}{\partial s} & \frac{\partial y}{\partial t} \end{array} \right| =\left| \begin{array}{cc} \frac{t}{2 n} \left(\frac{s}{n}\right)^{-\frac{1}{2}} & \left(\frac{s}{n}\right)^{\frac{1}{2}} \\ 1 & 0 \end{array} \right| = -\left(\frac{s}{n}\right)^{\frac{1}{2}}$$

$$|J| = \left(\frac{s}{n}\right)^{\frac{1}{2}}$$

故 $(S, T)$ 的联合密度函数为

$$\begin{array}{l} q(s, t) &= p\left(t\left(\frac{s}{n}\right)^{\frac{1}{2}}, s\right) |J| \\ &= \frac{1}{\sqrt{2\pi}} e^{-\frac{s^2}{2\pi}} \cdot \frac{1}{2^2 \Gamma\left(\frac{n}{2}\right)} s^{\frac{n}{2}-1} e^{-\frac{1}{2}} \cdot \left(\frac{s}{n}\right)^{\frac{1}{2}} \end{array}$$

因而 $T$ 的密度函数为

$$\begin{aligned} p_T(t) &= \int_0^{\infty} q(s, t) d s = \frac{1}{2^{\frac{n+1}{2}}\sqrt{n\pi}\Gamma\left(\frac{n}{2}\right)} \int_0^{\infty} e^{-\left(1+\frac{t^2}{n}\right) \frac{s}{2} }s^{\frac{n+1}{2}-1} d s \\ &= \frac{\left(1+\frac{t^2}{n}\right)^{\frac{-(n+1)}{2}}}{\sqrt{n\pi}\Gamma\left(\frac{n}{2}\right)}\int_0^{\infty} e^{-u } u^{\frac{n+1}{2}-1} d u \\ &= \frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{n\pi} \Gamma\left(\frac{n}{2}\right)} \left(1 + \frac{t^2}{n}\right)^{\frac{n+1}{2}} \end{aligned}$$

密度函数为

$$t(x; n) = \frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{n\pi} \Gamma\left(\frac{n}{2}\right)} \left(\frac{x^2}{n} + 1\right)^{-\frac{(n+1)}{2}}$$

称为自由度为 $n$ 的 $t$ 分布。

随机变量的独立性

Theorem: 独立随机变量的函数的独立性

若$\xi_1, \cdots, \xi_n$是相互独立的随机变量，则$f_1(\xi_1), \cdots, f_n(\xi_n)$也是相互独立的，这里$f_i(i=1, \cdots, n)$是任意的一元博雷尔函数。

Proof:

对任意的一维博雷尔点集$A_1, \cdots, A_n$有

$$\begin{align*} & P\{f_1(\xi_1) \in A_1, \cdots, f_n(\xi_n) \in A_n\} \\ =& P\{\xi_1 \in f_1^{-1}(A_1), \cdots, \xi_n \in f_n^{-1}(A_n)\} \\ =& P\{\xi_1 \in f_1^{-1}(A_1)\} \cdots P\{\xi_n \in f_n^{-1}(A_n)\} \\ =& P\{f_1(\xi_1) \in A_1\} \cdots P\{f_n(\xi_n) \in A_n\} \end{align*}$$

定理的结论在直观上是明显的，但在定理的证明中却要两次用到未证明的论断，其中第一次用来指明对$\xi_1, \cdots, \xi_n$的有关概率可以化为乘积的形式，另一次用来说明最后的等式表明$f_1(\xi_1), \cdots, f_n(\xi_n)$是相互独立的。

Example: 极坐标下的独立性

若$\xi$与$\eta$是相互独立的随机变量，均服从$N(0,1)$，试证化为极坐标后，$\rho = \sqrt{\xi^2 + \eta^2}$与$\varphi = \operatorname{arctg}\left(\frac{\eta}{\xi}\right)$（$\varphi$取值于$[0, 2\pi]$）是相互独立的。

采用极坐标，$x = r\cos\theta, y = r\sin\theta$，因此$r = \sqrt{x^2 + y^2}, \theta = \operatorname{arctg} \frac{y}{x}$，因为$(\xi, \eta)$的密度函数为

$$p(x, y) = \frac{1}{2\pi} e^{-(x^2 + y^2)/2}$$

而

$$J = \left|\begin{array}{cc} \frac{\partial x}{\partial r} & \frac{\partial x}{\partial \theta} \\ \frac{\partial y}{\partial r} & \frac{\partial y}{\partial \theta} \end{array}\right| = \left|\begin{array}{cc} \cos\theta & -r\sin\theta \\ \sin\theta & r\cos\theta \end{array}\right| = r$$

故$(\rho, \varphi)$的密度函数为

$$q(r, \theta) = \frac{1}{2\pi} e^{-(x^2 + y^2)/2} \cdot r = \frac{1}{2\pi} \cdot r e^{-r^2/2}, \quad r \geqslant 0, \quad 0 \leqslant \theta \leqslant 2\pi$$

即$\rho = \sqrt{\xi^2 + \eta^2}$的密度函数为

$$R(r) = \begin{cases} r e^{-r^2/2}, & r \geqslant 0 \\ 0, & r < 0 \end{cases} \quad (3.3.41)$$

这个分布称为瑞利分布。
而 $\beta = \arctan \frac{\eta}{\xi}$ 服从 $[0, 2\pi]$ 中的均匀分布，并且 $\rho$ 与 $\beta$ 是独立的。

Example: 二元正态分布的坐标旋转

若$(\xi_1, \xi_2)$服从二元正态分布，其中$\mu_1 = \mu_2 = 0$。令

$$\eta_1 = \xi_1 \cos \alpha + \xi_2 \sin \alpha, \quad \eta_2 = -\xi_1 \sin \alpha + \xi_2 \cos \alpha$$

这里$0 \leqslant \alpha \leqslant 2\pi$，是某个角度。我们来求$(\eta_1, \eta_2)$的密度函数$q(u, v)$。

显然$J = 1$，因此

$$q(u, v) = p(u \cos \alpha - v \sin \alpha, u \sin \alpha + v \cos \alpha)$$

$$= \frac{1}{2\pi \sigma_1 \sigma_2 \sqrt{1-\rho^2}} \exp\left\{-\frac{1}{2(1-\rho^2)}(A u^2 - 2 B u v + C v^2)\right\} \quad (3.3.43)$$

其中

$$\begin{align*} & A = \frac{\cos^2 \alpha}{\sigma_1^2} - 2\rho \frac{\cos \alpha \sin \alpha}{\sigma_1 \sigma_2} + \frac{\sin^2 \alpha}{\sigma_2^2} \\ & B = \frac{\cos \alpha \sin \alpha}{\sigma_1^2} - \rho \frac{\sin^2 \alpha - \cos^2 \alpha}{\sigma_1 \sigma_2} \\ & C = \frac{\sin^2 \alpha}{\sigma_1^2} + 2\rho \frac{\cos \alpha \sin \alpha}{\sigma_1 \sigma_2} + \frac{\cos^2 \alpha}{\sigma_2^2} \end{align*}$$

可上式看出由二维正态向量 $(\xi_1, \xi_2)$ 经坐标旋转而得的随机向量 $(\eta_1, \eta_2)$ 还是服从正态分布。进一步，若选$\alpha$使得

$$\text{tg} 2\alpha = \frac{2\rho \sigma_1 \sigma_2}{\sigma_1^2 - \sigma_2^2}$$

则$B = 0$，因此$\eta_1$与$\eta_2$独立。这说明二元正态分布密度可经适当的坐标旋转转化为两个正态分布密度之积。利用正交变换把多维正态变量化作独立正态分量，在数理统计中有重要应用。