1.2.1 Definition: 统计量定义
设$X_1, X_2, \ldots, X_n$为来自总体$X$的简单样本,若样本的函数$T(X_1, X_2, \ldots, X_n)$中不包含任何未知参数,则称此函数为统计量。
常见的统计量:
(1) 统计量 $\overline{X} = \frac{1}{n} \sum_{i=1}^{n} X_i$ 称为样本均值,它反映了样本的平均取值,描述了样本的集中取值趋势。
(2) 统计量 $S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \overline{X})^2$ 称为样本方差(均方差),它描述了样本取值的分散程度大小,称 $S$ 为样本标准差。
(3) 统计量 $A_k = \frac{1}{n} \sum_{i=1}^{n} X_i^k (k = 1, 2, \cdots,)$ 称为样本 $k$ 阶原点矩。
(4) 统计量 $B_k = \frac{1}{n} \sum_{i=1}^{n} (X_i - \overline{X})^k (k = 1, 2, \cdots,)$ 称为样本 $k$ 阶中心矩。特别地,当 $k = 2$ 时,样本二阶中心矩 $B_2$ 用记号 $\hat{\sigma}^2$ 来表示,即 $\hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^{n} (X_i - \overline{X})^2$,它也描述了样本取值的分散程度大小。
(5) 顺序统计量$X_{(1)}, X_{(2)}, \cdots, X_{(n)}$,$X_{(1)} = \min\{X_1, X_2, \cdots, X_n\}$,$X_{(n)} = \max\{X_1, X_2, \cdots, X_n\}$,$X_{(k)}$ 是第 $k$ 小的观测值。显然有 $F_{X_{(1)}}(t) = 1 - [1- F(t)]^n$,$F_{X_{(n)}}(t) = F^n(t)$。
1.2.3 Example: 样本方差和总体方差
$E(S^2) = \sigma^2$ 。
1.2.2 Definition: 充分统计量
设总体分布族为 $\{P_\theta: \theta \in \Theta\}$,$X_1, X_2, \cdots, X_n$ 是来自总体的简单样本,样本的函数 $T(X_1, X_2, \cdots, X_n)$ 是统计量。如果在给定 $T(X_1, X_2, \cdots, X_n) = t$ 的条件下,样本 $X_1, X_2, \cdots, X_n$ 的条件分布函数 $F_0(x_1, x_2, \cdots, x_n \mid t)$ 与参数 $\theta$ 无关,则称统计量 $T(X_1, X_2, \cdots, X_n)$ 为参数 $\theta$ 的充分统计量。
按充分统计量的定义求解比较麻烦,一般通过因子分解定理来求解。
1.2.1 Theorem: 因子分解定理
设总体分布族为 $\{P_\theta: \theta \in \Theta\}$,则统计量 $T(x)$ 是充分的,当且仅当存在一个定义在 $I \times \Theta$ 上的实值函数 $g(t, \theta)$ 及定义在样本空间 $\mathscr{D}$ 上的不依赖于参数 $\theta$ 的实值函数 $h(x)$ 使得样本 $x_1, x_2, \cdots, x_n$ 的联合分布 $p(x; \theta)$ 的分解式
$$p(x; \theta) = g(T(x), \theta) h(x)$$
1.2.6 Example: 泊松分布的充分统计量
设 $x_1, x_2, \cdots, x_n$ 是来自 Poisson 分布总体 $P(x;\lambda)$ 的简单样本,求参数 $\lambda$ 的充分统计量。
样本 $x_1, x_2, \cdots, x_n$ 的联合分布列为
取 $T(x) = \sum_{i=1}^n x_i$, $g(t, \lambda) = e^{-n\lambda} \lambda^t$, $h(x) = \frac{1}{x_1! x_2! \cdots x_n!}$, 则有
则$T(x) = \sum_{i=1}^n x_i$ 为参数 $\lambda$ 的充分统计量。
1.2.7 Example: 正态分布的充分统计量
设 $x_1, x_2, \cdots, x_s$ 是来自正态总体 $N(\mu, \sigma^2)$ 的简单样本,其中 $\mu$ 和 $\sigma^2$ 都是未知的,令参数 $\theta = (\mu, \sigma^2)$,试证明 $T(x) = \left(\sum_{i=1}^{\infty} x_i, \sum_{i=1}^{\infty} x_i^2\right)$ 及 $S(x) = \left(\sum_{i=1}^{\infty} x_i, \sum_{i=1}^{\infty} (x_i - \bar{x})^2\right)$ 都是 $\theta$ 的充分统计量。
样本的联合密度函数为
若取 $T(x) = \left(T_1(x), T_2(x)\right) = \left(\sum_{i=1}^{n} x_i, \sum_{i=1}^{n} x_i^2\right)$, $h(x) = 1$ 及
其中 $t = (t_1, t_2)$,则有
则$T(x) = \left(\sum_{i=1}^{\infty} x_i, \sum_{i=1}^{\infty} x_i^2\right)$ 是 $\theta$ 的充分统计量。
又因为样本的联合密度函数可表示为
若取 $S(x) = \left(S_1(x), S_2(x)\right) = \left(\sum_{i=1}^{n} x_i, \sum_{i=1}^{n} (x_i - \bar{x})^2\right)$, $h(x) = 1$ 及
其中 $s = (s_1, s_2)$,则有
则$S(x) = \left(\sum x_1, \sum (x_1 - \bar{x})^2\right)$ 也是 $\theta$ 的充分统计量。
{注}:上述充分统计量只在正态分布 $\mu ,\sigma$ 均未知时成立,若 $\mu$ 已知。
1.2.8 Example: 均匀分布的充分统计量
设 $x_1, x_2, \cdots, x_n$ 是来自均匀分布总体 $U[a, b]$ 的简单样本,其中 $a$ 和 $b$ 都是未知的,且 $a < b$,令参数 $\theta = (a, b)$,求 $\theta$ 的充分统计量。
样本的联合密度函数为
其中
称其为示性函数。
令
其中 $t = (t_1, t_2)$,则联合密度函数有分解式
则$T(x) = (x_{(1)}, x_{(n)})$ 是 $\theta$ 的充分统计量。
由上述例子可见,充分统计量不唯一,一般情况下,若 $T(x)$ 是充分统计量,则 $g(T(x))$ 的函数也是充分统计量,$g(t)$ 为一一对应的实函数。另外需要注意,当参数 $\theta$ 是多维时,应将充分统计量作为一个整体。
在前面的讨论中,我们一般假设分布函数已知,但在实际问题中,分布函数通常是未知的,因此需要通过样本来估计分布函数。
由 Bernoulli大数定律 可知,当 $n \to \infty$ 时,有 $\frac{\mu_n}{n} \to p$,即样本均值收敛到总体均值。
对总体 \(X\) 进行 \(n\) 次重复独立观测,相当于获得简单样本 \(x_1, x_2, \cdots, x_n\),而观测到的具体数值 \(x_1, x_2, \cdots, x_n\) 就是简单样本的一组观察值,用 \(v_n(x)\) 表示 \(n\) 次重复独立观测中事件 \(\{X \leq x\}\) 发生的次数,即 \(n\) 个观察值 \(x_1, x_2, \cdots, x_n\) 中不大于 \(x\) 的个数,称 \(v_n(x)\) 为经验频数。对不同组样本观察值,一般 \(v_n(x)\) 的取值是不同的,因此 \(v_n(x)\) 实际上是一个随机变量。由于对总体 \(X\) 进行 \(n\) 次重复独立观测,相当于完成了以 \(F(x) = P\{X \leq x\}\) 为成功概率的 \(n\) 重 Bernoulli 独立试验,因此事件 \(\{X \leq x\}\) 的发生次数 \(v_n(x)\) 服从二项分布 \(B(n, F(x))\),即
由 Bernoulli 大数定律知,对任意给定的 \(\varepsilon > 0\),有
这说明当样本容量 \(n\) 充分大时,事件 \(\{X \leq x\}\) 发生的频率 \(\frac{v_n(x)}{n}\) 稳定于总体分布函数 \(F(x)\) 是大概率事件,因此可以用频率 \(\frac{v_n(x)}{n}\) 近似分布函数 \(F(x)\)。利用顺序统计量可以给出所谓的经验分布函数定义如下。
1.2.3 Definition: 经验分布函数
设样本 $x_1, x_2, \cdots, x_n$ 的顺序统计量为 $x_{(1)}, x_{(2)}, \cdots, x_{(n)}$,对任意实数 $x (x \in \mathbb{R})$ 定义函数
$$F_n(x) = \frac{v_n(x)}{n} = \left\{ \begin{array}{ll} 0, & x < x_{(1)} \\ \frac{k}{n}, & x_{(k)} \leq x < x_{(k+1)}, \quad k = 1, 2, \cdots, n-1 \\ 1, & x \geq x_{(n)} \end{array} \right.$$称 $F_n(x)$ 为总体 $X$ 的经验分布函数。
对于经验分布函数有:
1.2.2 Theorem: Glivenko's 定理
当 $n \to \infty$ 时,经验分布函数 $F_n(x)$ 以概率 1 关于 $x$ 一致收敛于总体的分布函数 $F(x)$,即
$$P\{\lim_{n \to \infty} \sup_{-\infty < x < \infty} |F_n(x) - F(x)| = 0\} = 1$$
参见特征函数。
1.3.2 Definition: 卡方分布定义
设 $X_1, X_2, \cdots, X_n$ 是相互独立的随机变量,且 $X_i \sim N(0,1)(i=1,2,\cdots,n)$,则称随机变量
$$\chi ^2 = X_1^2 + X_2^2 + \cdots + X_n^2$$所服从的分布是自由度为 $n$ 的 $\chi^2$ 分布,记为 $x^2 \sim \chi^2(n)$。
1.3.1 Theorem: 卡方分布概率密度函数
$\chi^2(n)$ 分布的概率密度函数为
$$f(x) = \left\{ \begin{array}{l} \frac{1}{2^{\frac{n}{2}}\Gamma\left(\frac{n}{2}\right)} x^{\frac{n}{2}-1} e^{-\frac{x}{2}}, & x > 0 \\ 0,& x \leqslant 0 \end{array} \right.$$
1.3.2 Theorem: 正态总体样本的卡方分布
设 $X_1, X_2, \cdots, X_n$ 是来自正态总体 $N(\mu, \sigma^2)$ 的简单样本,则
$$x^2 = \frac{1}{\sigma^2} \sum_{i=1}^n (X_i - \mu)^2 \sim \chi^2(n)$$
令 $Y_i = \frac{X_i - \mu}{\sigma}, i = 1, 2, \cdots, n$,则
因为 $X_i \sim N(\mu, \sigma^2), X_1, X_2, \cdots, X_n$ 相互独立,所以 $Y_i \sim N(0,1)$,且 $Y_1, Y_2, \cdots, Y_n$ 相互独立,由定义 1.3.2 知结论成立。
1.3.3 Theorem: 卡方分布的性质
若 $X \sim \chi^2(n)$,则
(1) $\varphi(t) = (1 - 2it)^{-\frac{n}{2}}$;
(2) $E(X) = n$ 及 $\operatorname{Var}(X) = 2n$.
1.3.1 Proof: 特征函数证明
由特征函数的定义有
再由 $\Gamma$ 函数的定义,可得 $\varphi(t)=(1-2 i t)^{-\frac{n}{2}}$ 。
因为 $X$ 的特征函数 $\varphi(t)=(1-2 i t)^{-\frac{n}{2}}$ ,所以
由特征函数的性质,有
从而 $X$ 的方差为
1.3.4 Theorem: 卡方分布的可加性
若 $X \sim \chi^2(n_1), Y \sim \chi^2(n_2)$,且 $X$ 与 $Y$ 相互独立,则
$$X + Y \sim \chi^2(n_1 + n_2)$$
$X$ 与 $Y$ 的特征函数分别为
因为 $X$ 与 $Y$ 相互独立,所以由特征函数的性质,有 $X + Y$ 的特征函数为
这是自由度为 $n_1 + n_2$ 的 $\chi^2$ 分布的特征函数,故 $X + Y \sim \chi^2(n_1 + n_2)$。
1.3.1 Corollary: 卡方分布的独立性
若 $X_i \sim \chi^2(n_i), i = 1, 2, \cdots, k$,且 $X_1, X_2, \cdots, X_k$ 相互独立,则
$$\sum_{i=1}^k X_i \sim \chi^2\left(\sum_{i=1}^k n_i\right)$$
1.3.3 Definition: t分布
设 $X \sim N(0,1), Y \sim \chi^2(n)$,且 $X$ 与 $Y$ 相互独立,则称随机变量
$$T = \frac{X}{\sqrt{Y/n}}$$所服从的分布是自由度为 $n$ 的 $t$ 分布,记为 $T \sim t(n)$。
1.3.5 Theorem: t分布的概率密度函数
$t(n)$ 分布的概率密度函数为
$$f(t) = \frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{n\pi}\Gamma\left(\frac{n}{2}\right)}\left(1 + \frac{t^2}{n}\right)^{-\frac{n+1}{2}}$$
1.3.6 Theorem: 一般正态分布的t分布
设 $X \sim N(\mu, \sigma^2), \frac{Y}{\sigma^2} \sim \chi^2(n)$,且 $X$ 与 $Y$ 相互独立,则有
$$T = \frac{X - \mu}{\sqrt{Y/n}} \sim t(n)$$
1.3.4 Definition: F分布
设 $X \sim \chi^2(n_1), Y \sim \chi^2(n_2)$,且 $X$ 与 $Y$ 相互独立,则称随机变量
$$F = \frac{X/n_1}{Y/n_2}$$所服从的分布是自由度为 $(n_1, n_2)$ 的 $F$ 分布,记为 $F \sim F(n_1, n_2)$。
1.3.7 Theorem: F分布的概率密度函数
$F(n_1, n_2)$ 分布的概率密度函数为
$$f(z) = \left\{ \begin{array}{ll} \frac{\Gamma\left(\frac{n_1 + n_2}{2}\right)}{\Gamma\left(\frac{n_1}{2}\right)\Gamma\left(\frac{n_2}{2}\right)} \left(\frac{n_1}{n_2}\right) \left(\frac{n_1}{n_2} z\right) ^{\frac{n_1}{2} - 1} \left(1 + \frac{n_1}{n_2}z\right)^{-\frac{n_1 + n_2}{2}}, & z > 0 \\ 0, & z \leq 0 \end{array} \right.$$
1.3.8 Theorem: F分布的倒数性质
若 $F \sim F(n_1, n_2)$,则 $\frac{1}{F} \sim F(n_2, n_1)$。
1.3.9 Theorem: 线性组合的正态分布
设总体 $X \sim N(\mu, \sigma^2), X_1, X_2, \cdots, X_n$ 是来自总体 $X$ 的简单样本,令
$$Y = a_1X_1 + a_2X_2 + \cdots + a_nX_n$$其中 $a_1, a_2, \cdots, a_n$ 是不全为零的常数,则有
$$Y \sim N\left(\mu \sum_{k=1}^n a_k, \sigma^2 \sum_{k=1}^n a_k^2\right)$$
1.3.2 Corollary: 样本均值的正态分布
设总体 $X \sim N(\mu, \sigma^2), X_1, X_2, \cdots, X_n$ 是来自总体 $X$ 的简单样本,则样本均值
$$\overline{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)$$
1.3.11 Theorem: 样本均值与样本方差的独立性
设 $X_1, X_2, \cdots, X_n$ 是来自正态总体 $N(\mu, \sigma^2)$ 的简单样本,则样本均值 $\overline{X}$ 和样本方差 $S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \overline{X})^2$ 相互独立,且
$$\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)$$
{注}:可以证明正态分布是唯一具有此性质的分布。该性质说明 $\overline{X}$ 提供了所有关于 $\mu$ 的信息,$S^2$ 提供了所有关于 $\sigma^2$ 的信息。
1.3.12 Theorem: t分布和F分布
设 $X_1, X_2, \cdots, X_n$ 是来自正态总体 $N(\mu, \sigma^2)$ 的简单样本,则有
(1) $\frac{\overline{X} - \mu}{S/\sqrt{n}} \sim t(n-1)$。
(2) $\frac{(\overline{X} - \mu)^2}{S^2/n} \sim F(1, n-1)$。
1.3.13 Theorem: 两样本t检验
设 $X_1, X_2, \cdots, X_{n_1}$ 是来自正态总体 $N(\mu_1, \sigma^2)$ 的简单样本,$Y_1, Y_2, \cdots, Y_{n_2}$ 是来自正态总体 $N(\mu_2, \sigma^2)$ 的简单样本,且两样本相互独立,则
$$T = \frac{(\overline{X} - \overline{Y}) - (\mu_1 - \mu_2)}{S_w \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \sim t(n_1 + n_2 - 2)$$
其中
1.3.5 Definition: 分位数
设随机变量 $X$ 的分布函数为 $F(x)$,对任意给定的实数 $p(0 < p < 1)$,若存在 $x_p$ 使得
$$P\{X \leq x_p\} = F(x_p) = p$$则称 $x_p$ 为此概率分布的 $p$ 分位数。
下面给出数理统计中常用分布的 $p$ 分位数的记号。
(1) 对标准正态分布 $N(0,1)$,用 $z_p$ 表示其分布的 $p$ 分位数,即
由于标准正态分布的概率密度函数图形关于 $y$ 轴对称,因此有 $-z_p = z_{1-p}$。
(2) 对自由度为 $n$ 的 $\chi^2$ 分布 $\chi^2(n)$,用 $\chi_p^2(n)$ 表示其分布的 $p$ 分位数,即
(3) 对自由度为 $n$ 的 $t$ 分布 $t(n)$,用 $t_p(n)$ 表示其分布的 $p$ 分位数,即
由于 $t$ 分布的概率密度函数图形关于 $y$ 轴对称,因此有 $-t_p(n) = t_{1-p}(n)$。
(4) 对自由度为 $n_1, n_2$ 的 $F$ 分布 $F(n_1, n_2)$,用 $F_p(n_1, n_2)$ 表示其分布的 $p$ 分位数,即
由定理 1.3.8 可得