第二章

Contents

第二章参数估计

第二章参数估计

频率替换法

由 Bernoulli 大数定律可知，当 $n \to \infty$ 时，有

$$\lim_{n \to \infty} P\left\{ \left| \mu_n - p \right| < \varepsilon \right\} = 1$$

所以概率 $p$ 的最简单的估计值可以选取 $\hat{p} = \frac{n_i}{n}$。这种估计方法称为频率替换法。

在实际情况中，概率 $p_i$ 除了满足条件 $\sum_{i=1}^m p_i=1$ 外，还是 $s$ 维参数 $\theta=\left(\theta_1,\theta_2,\cdots,\theta_s\right)$ 的连续函数，即

\[\left\{ \begin{array}{l} p_1=h_1\left(\theta_1,\theta_2,\cdots,\theta_s\right)\\ p_2=h_2\left(\theta_1,\theta_2,\cdots,\theta_s\right)\\ \vdots\\ p_m=h_m\left(\theta_1,\theta_2,\cdots,\theta_s\right) \end{array} \right.\]

其中 $s\leqslant m$。需要估计的是 $\theta$ 的部分分量或其连续函数 $q(\theta)$。若求解上述方程组，可将 $\theta_i$ 表示成 $p_i$ 的函数，并代入 $q(\theta)$，可得表达式 $q(\theta)=g\left(p_1, p_2,\cdots, p_m\right)$，且 $g$ 是区域

\[D=\left\{\left(p_1, p_2,\cdots, p_m\right): p_i>0,\sum_{i=1}^m p_i=1\right\}\]

上的连续函数，则由频率替换原理可得 $q(\theta)$ 的频率替换估计为 $g\left(\frac{n_1}{n},\frac{n_2}{n},\ldots,\frac{n_m}{n}\right)$。

矩估计

令

$$\begin{gathered} A_k = \frac{1}{n} \sum_{i=1}^n x_i^k \\ B_k = \frac{1}{n} \sum_{i=1}^n (x_i - \overline{x})^k \\ \mu_k = E(X^k) \\ v_k = E[(X - E(X))]^k \end{gathered}$$

由大数定律可知，有

$$\lim_{x \to \infty} P\left\{ \left| A_k - \mu_k \right| < \varepsilon \right\} = 1$$

所以，对于一个随机变量 $\xi$，其 $k$ 阶原点矩 $\mu _k$(或中心原点矩$v_k$)的最简单的估计值可以选取 $A_k(B_k)$。这种估计方法称为矩估计。
在实际情况中，$\mu_k$ 为要估计变量 $\theta$ 的函数，即：

$$\left\{ \begin{aligned} \mu_1 &= g_1(\theta_1, \theta_2, \cdots, \theta_s), \\ \mu_2 &= g_2(\theta_1, \theta_2, \cdots, \theta_s), \\ &\vdots \\ \mu_r &= g_r(\theta_1, \theta_2, \cdots, \theta_s). \end{aligned} \right.$$

将估计量 $\theta$ 表示为 $\mu _k$(或 $v_k$) 的函数，即：

$$\left\{ \begin{aligned} \theta_1 &= h_1(\mu_1, \mu_2, \cdots, \mu_s), \\ \theta_2 &= h_2(\mu_1, \mu_2, \cdots, \mu_s), \\ &\vdots \\ \theta_s &= h_s(\mu_1, \mu_2, \cdots, \mu_s). \end{aligned} \right.$$

最大似然估计

2.1.1 Definition: 极大似然估计

若在参数空间 $\Theta$ 中存在 $\hat{\theta}(x_1, x_2,\ldots, x_n)$ 使得下式成立：

$$L(\hat{\theta}(x_1, x_2,\cdots, x_n); x_1, x_2,\cdots, x_n) = \sup_{\theta \in \Theta} \{L(\theta; x_1, x_2,\cdots, x_n)\}$$

则称 $\hat{\theta}(x_1, x_2,\ldots, x_n)$ 为参数 $\theta$ 的极大似然估计(Maximum Likelihood Estimate)，简称 MLE。

最大似然估计的本质：在给定观测数据的情况下，估计参数使得这组数据出现的概率最大的参数。故其一般归结为求取函数的最值问题，特别注意参数的最值是否在取值范围内。

估计量评优准则

均方误差准则

若使用统计量 $T(x) = T(x_1,\cdots ,x_n)$ 估计参数 $q(\theta)$，使用均方误差作为评价估计好坏的标准。
均方误差定义如下：

$$\operatorname{MSE}_\theta (T(x)) = E\left\{[T(x) - q(\theta)]^2\right\} = \text{Var}_\theta(T(x)) + b^2(q(\theta), T)$$

其中 $b(q(\theta), T) = E_\theta(T(x)) - q(\theta)$ 为偏差。
可以看出一个估计量的均方误差由两部分组成：估计的稳定性和估计的无偏性。

2.2.1 Definition: 估计的比较

设 $S(x)$ 和 $T(x)$ 是参数 $q(\theta)$ 的两个估计，若对所有的 $\theta \in \Theta$，有

$$\text{MSE}_\theta(T(x)) \leqslant \text{MSE}_\theta(S(x))$$

且对某些 $\theta \in \Theta$ 不等式成立，则称 $T(x)$ 比 $S(x)$ 好，或 $T(x)$ 不比 $S(x)$ 差，此时也称 $S(x)$ 是非容许的。

2.2.2 Definition: 无偏估计

设统计量 $T(x)$ 是参数 $q(\theta)$ 的一个估计，若对所有的 $\theta \in \Theta$，有

$$E_\theta(T(x)) = q(\theta) \qquad (2.2.4)$$

成立，即偏差 $b(q(\theta), T(x)) = 0$，则称 $T(x)$ 为 $q(\theta)$ 的无偏估计(Unbiased Estimate)，否则称其为有偏估计。

{注}：

无偏估计不唯一。
无偏估计不一定是最优估计。
无偏估计不一定存在。
非线性变换可能导致无偏性消失。

2.2.3 Definition: 可估参数

若参数 $q(\theta)$ 的无偏估计存在，则称 $q(\theta)$ 是可估的。今后，若无特别声明，均假设参数 $q(\theta)$ 是可估的。令

$$U_q = \left\{ T(x) : E_\theta(T(x)) = q(\theta), \text{Var}_\theta(T(x)) < \infty, \forall \theta \in \Theta \right\}$$

一致最小方差无偏估计

2.2.4 Definition: 一致最小方差无偏估计

若存在无偏估计 $T^{*}(x) \in U_{q}$，使得对任何估计 $T(x) \in U_{q}$，不等式

$$\text{Var}_\theta\left(T^*(x)\right) \leqslant \text{Var}_\theta(T(x))$$

对所有的 $\theta \in \Theta$ 都成立，则称 $T^{*}(x)$ 为参数 $q(\theta)$ 的一致最小方差无偏估计(UMVUE)。

为存在性定理叙述方便，令

$$U_0 = \{ T_0(x) : E_\theta(T_0(x)) = 0, \text{Var}_\theta(T_0(x)) < \infty, {\forall} \theta \in \Theta \}$$

即 $U_0$ 表示均值为零，方差有限的统计量所组成的类。

2.2.1 Theorem: UMVUE 的存在性

设 $T(x) \in U_q$，$T(x)$ 是 $q(\theta)$ 一致最小方差无偏估计的充分必要条件是对 $\forall T_0(x) \in U_0$，等式

$$E_\theta[T_0(x)T(x)] = 0$$

对所有的 $\theta \in \Theta$ 都成立。

2.2.1 Corollary: UMVUE 的线性组合

设统计量 $T_1(x)$ 和 $T_2(x)$ 分别是可估函数 $q_1(\theta)$ 和 $q_2(\theta)$ 的一致最小方差无偏估计，则对任意常数 $a$ 和 $b$，$aT_1(x) + bT_2(x)$ 是 $aq_1(\theta) + bq_2(\theta)$ 的一致最小方差无偏估计。

2.2.2 Theorem: UMVUE 的唯一性

设 $q(\theta)$ 是可估函数，且 $T(x)$ 和 $S(x)$ 都是 $q(\theta)$ 的一致最小方差无偏估计，则对所有 $\theta \in \Theta$，有 $P_\theta\{T(x) = S(x)\} = 1$，即在概率 1 下，$q(\theta)$ 的一致最小方差无偏估计是唯一的。

由上可得，UMVUE 是存在且唯一的，但仍然没有给出 UMVUE 的具体构造方法。

2.2.3 Theorem: Rao-Blackwell 定理

设总体 $X$ 的分布族为 $\{P_\theta : \theta \in \Theta\}$，$S(x)$ 是充分统计量，$\varphi(x) \in U_q$，则在给定 $S(x)$ 下，$\varphi(x)$ 的条件数学期望

$$T(x) = E_\theta(\varphi(x) \mid S(x))$$

也是 $q(\theta)$ 的方差有限的无偏估计，即 $T(x) \in U_q$，且对一切 $\theta \in \Theta$，有

$$\text{Var}_\theta(T(x)) \leqslant \text{Var}_\theta(\varphi(x))$$

等号是当且仅当 $P_\theta\{T(x) = \varphi(x)\} = 1$ 时成立。

该定理给出了寻找 UMVUE 的方向，即通过充分统计量的条件期望来构造。
设 $S(x)$ 为充分统计量，令

$$U_q^S = \{ E_\theta(\varphi(x) \mid S(x)) : {\forall } \varphi(x) \in U_q \}$$

显然有 $U_q^S \subset U_q$，因为 $T(x) = E_\theta(\varphi(x) \mid S(x))$ 也是 $q(\theta)$ 的无偏估计，且方差有限。同时若有 $T(x) = h(S(x))$，且 $E(T(x)) = q(\theta )$，这是因为

$$E_\theta (T(x) \mid S(x)) = E_\theta (h(S(x)) \mid S(x)) =h(S(x))$$

2.2.5 Definition: 完全统计量

设总体 $X$ 的分布族为 $\{P_\theta : \theta \in \Theta\}$，$g(X)$ 是任一随机变量，如果对一切 $\theta \in \Theta$，$E_\theta(g(X)) = 0$ 成立，就意味着对一切 $\theta \in \Theta$，必有 $P_\theta\{g(X) = 0\} = 1$ 成立，则称总体的分布族 $\{P_\theta : \theta \in \Theta\}$ 是完全的。
设 $x_1, x_2, \ldots, x_n$ 是来自总体 $X$ 的简单样本，如果统计量 $T(x_1, x_2, \ldots, x_n)$ 的分布族是完全的，则称 $T$ 是完全统计量。

从定义出发寻找完全统计量较为困难，下面的定理给出寻找完全统计量的方法。

2.2.4 Theorem: 完全充分统计量构造

设 $x_1, x_2, \ldots, x_n$ 是来自总体 $\{P_\theta : \theta \in \Theta\}$ 的简单样本，总体的密度函数为 $p(x; \theta)$，且样本 $x_1, x_2, \ldots, x_n$ 的联合密度函数（或联合分布列）可分解为

$$p(x_1, x_2, \ldots, x_n; \theta) = c(\theta) h(x_1, x_2, \ldots, x_n) \exp\left\{\sum_{k=1}^{m} w_k(\theta) T_k(x_1, x_2, \ldots, x_n)\right\}$$

其中 $h(x_1, x_2, \ldots, x_n)$ 仅是 $x_1, x_2, \ldots, x_n$ 的函数，$w = w(\theta) = (w_1(\theta), \ldots, w_m(\theta))$ 是定义在 m 维参数空间 $\Theta$ 上取值于 $A \subset \mathbb{R}^m$ 的向量函数，$c(\theta)$ 仅是 $\theta$ 的函数。如果 $w(\theta)$ 值域 $\Lambda$ 包含内点，则 m 维统计量

$$T(x_1, x_2, \ldots, x_n) = (T_1(x_1, x_2, \ldots, x_n), T_2(x_1, x_2, \ldots, x_n), \ldots, T_m(x_1, x_2, \ldots, x_n))$$

是完全充分的。

2.2.5 Theorem: Lehmann-Scheffe 定理

设 $S(x)$ 是完全充分统计量， $\varphi(x) \in U_q$，则 $T(x) = E_\theta(\varphi(x) \mid S(x))$ 是 $q(\theta)$ 唯一的一致最小方差无偏估计。

该定理有两种等价叙述：

若能获得 $q(\theta)$ 的无偏估计 $\varphi(x)$，则 $\varphi(x)$ 关于 $S(x)$ 的条件数学期望 $T(x) = E_\theta(\varphi(x) \mid S(x))$ 就是 $q(\theta)$ 的一致最小方差无偏估计；
由于 $q(\theta)$ 的一致最小方差无偏估计 $T(x)$ 一定是完全充分统计量 $S(x)$ 的函数，所以若能获得完全充分统计量 $S(x)$ 的函数 $h(S(x))$，并将其无偏化，就可获得 $q(\theta)$ 的一致最小方差无偏估计。

可直观的把充分性看作是对数据的压缩，而完全性看作是对数据的无损压缩。

信息不等式

2.3.1 Definition: Cramer-Rao 正则族

设总体分布族为 $\{p(x; \theta) : \theta \in \Theta\}$，其中 $p(x; \theta)$ 为密度函数，$\Theta$ 是直线上的某一开区间。若分布族 $\{p(x; \theta) : \theta \in \Theta\}$ 满足以下条件：

支撑 $A_0 = \{x : p(x; \theta) > 0\}$ 与参数 $\theta$ 无关，且对任一固定的 $x \in A_0$，在参数空间 $\theta$ 上偏导数 $\frac{\partial \ln p(x; \theta)}{\partial \theta}$ 存在；

如果对一切 $\theta \in \Theta$，$T(x_1, x_2, \ldots, x_n)$ 是满足 $E_\theta |T| < +\infty$ 的任一统计量，则有

$$\frac{\partial}{\partial \theta} \int_{-\infty}^{+\infty} \cdots \int_{-\infty}^{+\infty} T(x_1, x_2, \ldots, x_n) p(x_1, x_2, \ldots, x_n; \theta) \, dx_1 \cdots dx_n = \int_{-\infty}^{+\infty} \cdots \int_{-\infty}^{+\infty} T(x_1, x_2, \ldots, x_n) \frac{\partial}{\partial \theta} p(x_1, x_2, \ldots, x_n; \theta) \, dx_1 \cdots dx_n$$

其中 $p(x_1, x_2, \ldots, x_n; \theta)$ 为来自总体 $\{p(x; \theta) : \theta \in \Theta\}$ 的简单样本 $x_1, x_2, \ldots, x_n$ 的联合密度函数。则称分布族 $\{p(x; \theta) : \theta \in \Theta\}$ 为 Cramer-Rao 正则族。

2.3.* Definition: Fisher 信息量

定义 Fisher 信息量为

$$I(\theta) = E_\theta\left[\frac{\partial}{\partial\theta} \ln p(x; \theta)\right]^2$$

由上式可知 $0 \leqslant I(\theta) \leqslant +\infty$。
如果 $\frac{d^2}{d\theta^2} \int_{-\infty}^{+\infty} p(x; \theta) \, dx = \int_{-\infty}^{+\infty} \frac{\partial^2 p(x; \theta)}{\partial \theta^2} \, dx$ 成立，则可以证明上式等价于

$$I(\theta) = -E_\theta\left[\frac{\partial^2}{\partial \theta^2} \ln p(x; \theta)\right]$$

可以证明：

若 $x_1, \cdots , x_n$ 独立同分布，则 $I_n(\theta) = nI(\theta)$；
若统计量 $T(x)$ 是样本的充分统计量，则 $I_T(\theta) = I_n(\theta )$。

2.3.1 Theorem: 信息不等式

设总体的密度函数族 $\{p(x; \theta) : \theta \in \Theta\}$ 是 Cramer-Rao 正则族，且 $0 < I(\theta) < +\infty$，$T(x_1, x_2, \ldots, x_n)$ 是对一切 $\theta \in \Theta$ 满足 $\text{Var}_\theta(T(x_1, x_2, \ldots, x_n)) < \infty$ 的统计量，令 $\varphi(\theta) = E_\theta(T(x_1, x_2, \ldots, x_n))$，则对一切 $\theta \in \Theta$，$\varphi(\theta)$ 是可微的，且

$$\text{Var}_\theta(T(x_1, x_2, \ldots, x_n)) \geqslant \frac{[\varphi'(\theta)]^2}{n I(\theta)}$$

若取 $T(x_1, \cdots , x_n) \in U_q$，则有

$$\text{Var}_\theta(T(x_1, \cdots , x_n)) \geqslant \frac{[q'(\theta)]^2}{n I(\theta)}$$

若 $q(\theta ) = \theta$，则有

$$\text{Var}_\theta(T(x_1, \cdots , x_n)) \geqslant \frac{1}{n I(\theta)}$$

一致最小方差无偏估计的方差不一定达到 Cramer-Rao 下界，但若一个无偏估计量的方差达到 Cramer-Rao 下界，则其必为 UMVUE。

2.3.2 Definition: 有效估计

设分布族 $\{P_\theta : \theta \in \Theta\}$ 是 Cramer-Rao 正则族，$q(\theta)$ 是可估参数，若存在某个无偏估计 $\hat{q} \in U_q$，对所有的 $\theta \in \Theta$，有

$$\text{Var}_\theta(\hat{q}) = \frac{[q'(\theta)]^2}{n I(\theta)}$$

则称 $\hat{q}$ 为参数 $q(\theta)$ 的有效估计。

2.3.3 Definition: 有效率

对可估参数 $q(\theta)$ 的任一无偏估计 $T \in U_q$，令

$$e(T, q(\theta)) = \frac{\left[q'(\theta)\right]^2 / (n I(\theta))}{\text{Var}_\theta(T)}$$

则称 $e(T, q(\theta))$ 为使用 $T$ 估计 $q(\theta)$ 的有效率。

2.3.4 Definition: 渐近无偏估计

设总体分布族为 $\{P_\theta : \theta \in \Theta\}$，$\{T_n\}$ 是参数 $q(\theta)$ 的估计序列，若对一切 $\theta \in \Theta$ 有

$$\lim_{n \to \infty} E_\theta(T_n) = q(\theta)$$

则称 $T_n$ 为参数 $q(\theta)$ 的渐近无偏估计。

2.3.5 Definition: 渐近有效估计

设 $q(\theta)$ 是可估参数，若存在无偏估计序列 $T_n \in U_q$，使得对一切 $\theta \in \Theta$ 有

$$\lim_{n \to \infty} e(T_n, q(\theta)) = \lim_{n \to \infty} \frac{\left[q'(\theta)\right]^2 / (n I(\theta))}{\text{Var}_\theta(T_n)} = 1$$

则称 $T_n$ 为 $q(\theta)$ 的渐近有效估计。

2.4.1 Definition: 相合估计

设 $\hat{q}_n = \hat{q}_n(x_1, x_2, \ldots, x_n)$ 是参数 $q(\theta)$ 的任一估计序列，如果 $\{\hat{q}_n\}$ 依概率收敛于参数真值 $q(\theta)$，即对任意的 $\varepsilon > 0$ 有

$$\lim_{n \to \infty} P_\theta\{\mid \hat{q}_n - q(\theta) \mid \geqslant \varepsilon\} = 0$$

对任意的 $\theta \in \Theta$ 成立，则称 $\hat{q}_n$ 是 $q(\theta)$ 的相合估计。

2.4.1 Theorem: 连续函数的相合估计

如果 $\hat{q}_n$ 是 $q(\theta)$ 的相合估计，且函数 $g(y)$ 在 $y = q(\theta)$ 处连续，则 $g(\hat{q}_n)$ 是 $g(q(\theta))$ 的相合估计。

2.4.2 Definition: 渐近正态估计

设 $\hat{q}_n = \hat{q}(x_1, x_2, \ldots, x_n)$ 是参数 $q(\theta)$ 的估计序列，对任意的 $\theta \in \Theta$，若存在满足 $0 \leqslant \sigma^2(\theta) < +\infty$ 的 $\sigma^2(\theta)$，对任意的实数 $x \in \mathbb{R}$，有

$$\lim_{n \to \infty} P\left\{\sqrt{n}[\hat{q}_n - q(\theta)] \leqslant x\right\} = \int_{-\infty}^{x} \frac{1}{\sqrt{2\pi \sigma^2(\theta)}} \exp\left\{-\frac{u^2}{2 \sigma^2(\theta)}\right\} \, du$$

则称 $\hat{q}_n$ 具有渐近正态性，记为 $\hat{q}_n \sim AN\left(q(\theta), \frac{\sigma^2(\theta)}{n}\right)$，称 $\frac{\sigma^2(\theta)}{n}$ 为渐近方差，也称 $\hat{q}_n$ 为 $q(\theta)$ 的渐近正态估计。

可以证明，频率替换估计、矩估计、极大似然估计都是渐近正态性估计。
一般来说，极大似然估计的渐近方差 $\frac{\sigma ^2(\theta )}{n} = \frac{[q'(\theta )]^2}{nI(\theta )}$，即 $\sigma ^2(\theta ) = \frac{[q'(\theta )]^2}{I(\theta )}$，称具有该性质的估计为最优渐近正态估计。
相合性证明一般会用到切比雪夫不等式或马尔可夫不等式。

2.4.* Lemma: 马尔可夫不等式

设随机变量$X$的$l$次幂的期望存在，则对于任意$\varepsilon > 0$，有

\[P\{|X|\geqslant\varepsilon\} \leqslant \frac{E\left(|X|^l\right)}{\varepsilon^l}, \quad l=1,2,\cdots, k\]

区间估计

2.5.1 Definition: 置信区间

设总体的分布族为$\{P_\theta: \theta \in \Theta\}$，其中$\theta$是一维参数。若存在两个统计量$T_1(x)$及$T_2(x)$，对给定的$\alpha (0 < \alpha < 1)$有

\[P_\theta\{T_1(x_1, x_2, \cdots, x_n) \leqslant \theta \leqslant T_2(x_1, x_2, \cdots, x_n)\} \geqslant 1 - \alpha\]

对所有的$\theta \in \Theta$都成立，则称随机区间$[T_1, T_2]$为参数$\theta$的置信水平为$1-\alpha$的置信区间，称$T_1$为置信下限，称$T_2$为置信上限，称$1-\alpha$为置信水平或置信度。

2.5.2 Definition: 单侧置信区间

设总体的分布族为$\{P_\theta: \theta \in \Theta\}$，其中$\theta$是一维参数。若存在统计量$T_1(x_1, x_2, \cdots, x_n)$，对给定的$1-\alpha (0 < \alpha < 1)$，有

\[P_\theta\{\theta \geqslant T_1(x_1, x_2, \cdots, x_n)\} \geqslant 1 - \alpha \quad (2.5.5)\]

对所有$\theta \in \Theta$都成立，则称$T_1$为参数$\theta$的置信水平为$1-\alpha$的置信下限。若存在统计量$T_2(x_1, x_2, \cdots, x_n)$，对给定的$1-\alpha (0 < \alpha < 1)$，有

\[P_\theta\{\theta \leqslant T_2(x_1, x_2, \cdots, x_n)\} \geqslant 1 - \alpha \quad (2.5.6)\]

对所有$\theta \in \Theta$都成立，则称$T_2$为参数$\theta$的置信水平为$1-\alpha$的置信上限。

{注}：求解的关键为寻找枢轴变量，即包含统计量和参数的函数 $g(\hat{\theta }, \theta )$，且其分布已知。实际中一般取对称随机区间，即 $T_1 = -T_2$。

第二章 参数估计

频率替换法

矩估计

最大似然估计

估计量评优准则

均方误差准则

一致最小方差无偏估计

信息不等式

区间估计

第二章参数估计