Contents

第二章 参数估计

频率替换法

Bernoulli 大数定律可知,当 $n \to \infty$ 时,有

$$\lim_{n \to \infty} P\left\{ \left| \mu_n - p \right| < \varepsilon \right\} = 1$$

所以概率 $p$ 的最简单的估计值可以选取 $\hat{p} = \frac{n_i}{n}$。这种估计方法称为频率替换法。

在实际情况中,概率 $p_i$ 除了满足条件 \(\sum_{i=1}^m p_i=1\) 外,还是 \(s\) 维参数 \(\theta=\left(\theta_1,\theta_2,\cdots,\theta_s\right)\) 的连续函数,即

\[\left\{ \begin{array}{l} p_1=h_1\left(\theta_1,\theta_2,\cdots,\theta_s\right)\\ p_2=h_2\left(\theta_1,\theta_2,\cdots,\theta_s\right)\\ \vdots\\ p_m=h_m\left(\theta_1,\theta_2,\cdots,\theta_s\right) \end{array} \right.\]

其中 \(s\leqslant m\)。需要估计的是 \(\theta\) 的部分分量或其连续函数 \(q(\theta)\)。若求解上述方程组,可将 \(\theta_i\) 表示成 \(p_i\) 的函数,并代入 \(q(\theta)\),可得表达式 \(q(\theta)=g\left(p_1, p_2,\cdots, p_m\right)\),且 \(g\) 是区域

\[D=\left\{\left(p_1, p_2,\cdots, p_m\right): p_i>0,\sum_{i=1}^m p_i=1\right\}\]

上的连续函数,则由频率替换原理可得 \(q(\theta)\) 的频率替换估计为 \(g\left(\frac{n_1}{n},\frac{n_2}{n},\ldots,\frac{n_m}{n}\right)\)

矩估计


$$\begin{gathered} A_k = \frac{1}{n} \sum_{i=1}^n x_i^k \\ B_k = \frac{1}{n} \sum_{i=1}^n (x_i - \overline{x})^k \\ \mu_k = E(X^k) \\ v_k = E[(X - E(X))]^k \end{gathered}$$

大数定律可知,有

$$\lim_{x \to \infty} P\left\{ \left| A_k - \mu_k \right| < \varepsilon \right\} = 1$$

所以,对于一个随机变量 $\xi$,其 $k$ 阶原点矩 $\mu _k$(或中心原点矩$v_k$)的最简单的估计值可以选取 $A_k(B_k)$。这种估计方法称为矩估计。
在实际情况中,$\mu_k$ 为要估计变量 $\theta$ 的函数,即:

$$\left\{ \begin{aligned} \mu_1 &= g_1(\theta_1, \theta_2, \cdots, \theta_s), \\ \mu_2 &= g_2(\theta_1, \theta_2, \cdots, \theta_s), \\ &\vdots \\ \mu_r &= g_r(\theta_1, \theta_2, \cdots, \theta_s). \end{aligned} \right.$$

将估计量 $\theta$ 表示为 $\mu _k$(或 $v_k$) 的函数,即:

$$\left\{ \begin{aligned} \theta_1 &= h_1(\mu_1, \mu_2, \cdots, \mu_s), \\ \theta_2 &= h_2(\mu_1, \mu_2, \cdots, \mu_s), \\ &\vdots \\ \theta_s &= h_s(\mu_1, \mu_2, \cdots, \mu_s). \end{aligned} \right.$$

最大似然估计

2.1.1 Definition: 极大似然估计

若在参数空间 $\Theta$ 中存在 $\hat{\theta}(x_1, x_2,\ldots, x_n)$ 使得下式成立:

$$L(\hat{\theta}(x_1, x_2,\cdots, x_n); x_1, x_2,\cdots, x_n) = \sup_{\theta \in \Theta} \{L(\theta; x_1, x_2,\cdots, x_n)\}$$

则称 $\hat{\theta}(x_1, x_2,\ldots, x_n)$ 为参数 $\theta$ 的极大似然估计(Maximum Likelihood Estimate),简称 MLE。

最大似然估计的本质:在给定观测数据的情况下,估计参数使得这组数据出现的概率最大的参数。故其一般归结为求取函数的最值问题,特别注意参数的最值是否在取值范围内。

估计量评优准则

均方误差准则

若使用统计量 $T(x) = T(x_1,\cdots ,x_n)$ 估计参数 $q(\theta)$,使用均方误差作为评价估计好坏的标准。
均方误差定义如下:

$$\operatorname{MSE}_\theta (T(x)) = E\left\{[T(x) - q(\theta)]^2\right\} = \text{Var}_\theta(T(x)) + b^2(q(\theta), T)$$

其中 $b(q(\theta), T) = E_\theta(T(x)) - q(\theta)$ 为偏差。
可以看出一个估计量的均方误差由两部分组成:估计的稳定性和估计的无偏性。

2.2.1 Definition: 估计的比较

$S(x)$$T(x)$ 是参数 $q(\theta)$ 的两个估计,若对所有的 $\theta \in \Theta$,有

$$\text{MSE}_\theta(T(x)) \leqslant \text{MSE}_\theta(S(x))$$

且对某些 $\theta \in \Theta$ 不等式成立,则称 $T(x)$$S(x)$ 好,或 $T(x)$ 不比 $S(x)$ 差,此时也称 $S(x)$ 是非容许的。

2.2.2 Definition: 无偏估计

设统计量 $T(x)$ 是参数 $q(\theta)$ 的一个估计,若对所有的 $\theta \in \Theta$,有

$$E_\theta(T(x)) = q(\theta) \qquad (2.2.4)$$

成立,即偏差 $b(q(\theta), T(x)) = 0$,则称 $T(x)$$q(\theta)$ 的无偏估计(Unbiased Estimate),否则称其为有偏估计。

{注}:

  1. 无偏估计不唯一。
  2. 无偏估计不一定是最优估计。
  3. 无偏估计不一定存在。
  4. 非线性变换可能导致无偏性消失。

2.2.3 Definition: 可估参数

若参数 $q(\theta)$ 的无偏估计存在,则称 $q(\theta)$ 是可估的。今后,若无特别声明,均假设参数 $q(\theta)$ 是可估的。令

$$U_q = \left\{ T(x) : E_\theta(T(x)) = q(\theta), \text{Var}_\theta(T(x)) < \infty, \forall \theta \in \Theta \right\}$$

一致最小方差无偏估计

2.2.4 Definition: 一致最小方差无偏估计

若存在无偏估计 $T^{*}(x) \in U_{q}$,使得对任何估计 $T(x) \in U_{q}$,不等式

$$\text{Var}_\theta\left(T^*(x)\right) \leqslant \text{Var}_\theta(T(x))$$

对所有的 $\theta \in \Theta$ 都成立,则称 $T^{*}(x)$ 为参数 $q(\theta)$ 的一致最小方差无偏估计(UMVUE)。

为存在性定理叙述方便,令

$$U_0 = \{ T_0(x) : E_\theta(T_0(x)) = 0, \text{Var}_\theta(T_0(x)) < \infty, {\forall} \theta \in \Theta \}$$

$U_0$ 表示均值为零,方差有限的统计量所组成的类。

2.2.1 Theorem: UMVUE 的存在性

$T(x) \in U_q$$T(x)$$q(\theta)$ 一致最小方差无偏估计的充分必要条件是对 $\forall T_0(x) \in U_0$,等式

$$E_\theta[T_0(x)T(x)] = 0$$

对所有的 $\theta \in \Theta$ 都成立。

2.2.1 Corollary: UMVUE 的线性组合

设统计量 $T_1(x)$$T_2(x)$ 分别是可估函数 $q_1(\theta)$$q_2(\theta)$ 的一致最小方差无偏估计,则对任意常数 $a$$b$$aT_1(x) + bT_2(x)$$aq_1(\theta) + bq_2(\theta)$ 的一致最小方差无偏估计。

2.2.2 Theorem: UMVUE 的唯一性

$q(\theta)$ 是可估函数,且 $T(x)$$S(x)$ 都是 $q(\theta)$ 的一致最小方差无偏估计,则对所有 $\theta \in \Theta$,有 $P_\theta\{T(x) = S(x)\} = 1$,即在概率 1 下,$q(\theta)$ 的一致最小方差无偏估计是唯一的。

由上可得,UMVUE 是存在且唯一的,但仍然没有给出 UMVUE 的具体构造方法。

2.2.3 Theorem: Rao-Blackwell 定理

设总体 $X$ 的分布族为 $\{P_\theta : \theta \in \Theta\}$$S(x)$ 是充分统计量,$\varphi(x) \in U_q$,则在给定 $S(x)$ 下,$\varphi(x)$ 的条件数学期望

$$T(x) = E_\theta(\varphi(x) \mid S(x))$$

也是 $q(\theta)$ 的方差有限的无偏估计,即 $T(x) \in U_q$,且对一切 $\theta \in \Theta$,有

$$\text{Var}_\theta(T(x)) \leqslant \text{Var}_\theta(\varphi(x))$$

等号是当且仅当 $P_\theta\{T(x) = \varphi(x)\} = 1$ 时成立。

该定理给出了寻找 UMVUE 的方向,即通过充分统计量的条件期望来构造。
$S(x)$ 为充分统计量,令

$$U_q^S = \{ E_\theta(\varphi(x) \mid S(x)) : {\forall } \varphi(x) \in U_q \}$$

显然有 $U_q^S \subset U_q$,因为 $T(x) = E_\theta(\varphi(x) \mid S(x))$ 也是 $q(\theta)$ 的无偏估计,且方差有限。同时若有 $T(x) = h(S(x))$,且 $E(T(x)) = q(\theta )$,这是因为

$$E_\theta (T(x) \mid S(x)) = E_\theta (h(S(x)) \mid S(x)) =h(S(x))$$

2.2.5 Definition: 完全统计量

设总体 $X$ 的分布族为 $\{P_\theta : \theta \in \Theta\}$$g(X)$ 是任一随机变量,如果对一切 $\theta \in \Theta$$E_\theta(g(X)) = 0$ 成立,就意味着对一切 $\theta \in \Theta$,必有 $P_\theta\{g(X) = 0\} = 1$ 成立,则称总体的分布族 $\{P_\theta : \theta \in \Theta\}$ 是完全的。
$x_1, x_2, \ldots, x_n$ 是来自总体 $X$ 的简单样本,如果统计量 $T(x_1, x_2, \ldots, x_n)$ 的分布族是完全的,则称 $T$ 是完全统计量。

从定义出发寻找完全统计量较为困难,下面的定理给出寻找完全统计量的方法。

2.2.4 Theorem: 完全充分统计量构造

$x_1, x_2, \ldots, x_n$ 是来自总体 $\{P_\theta : \theta \in \Theta\}$ 的简单样本,总体的密度函数为 $p(x; \theta)$,且样本 $x_1, x_2, \ldots, x_n$ 的联合密度函数(或联合分布列)可分解为

$$p(x_1, x_2, \ldots, x_n; \theta) = c(\theta) h(x_1, x_2, \ldots, x_n) \exp\left\{\sum_{k=1}^{m} w_k(\theta) T_k(x_1, x_2, \ldots, x_n)\right\}$$

其中 $h(x_1, x_2, \ldots, x_n)$ 仅是 $x_1, x_2, \ldots, x_n$ 的函数,$w = w(\theta) = (w_1(\theta), \ldots, w_m(\theta))$ 是定义在 m 维参数空间 $\Theta$ 上取值于 $A \subset \mathbb{R}^m$ 的向量函数,$c(\theta)$ 仅是 $\theta$ 的函数。如果 $w(\theta)$ 值域 $\Lambda$ 包含内点,则 m 维统计量

$$T(x_1, x_2, \ldots, x_n) = (T_1(x_1, x_2, \ldots, x_n), T_2(x_1, x_2, \ldots, x_n), \ldots, T_m(x_1, x_2, \ldots, x_n))$$

是完全充分的。

2.2.5 Theorem: Lehmann-Scheffe 定理

$S(x)$ 是完全充分统计量, $\varphi(x) \in U_q$,则 $T(x) = E_\theta(\varphi(x) \mid S(x))$$q(\theta)$ 唯一的一致最小方差无偏估计。

该定理有两种等价叙述:

  1. 若能获得 $q(\theta)$ 的无偏估计 $\varphi(x)$,则 $\varphi(x)$ 关于 $S(x)$ 的条件数学期望 $T(x) = E_\theta(\varphi(x) \mid S(x))$ 就是 $q(\theta)$ 的一致最小方差无偏估计;

  2. 由于 $q(\theta)$ 的一致最小方差无偏估计 $T(x)$ 一定是完全充分统计量 $S(x)$ 的函数,所以若能获得完全充分统计量 $S(x)$ 的函数 $h(S(x))$,并将其无偏化,就可获得 $q(\theta)$ 的一致最小方差无偏估计。

可直观的把充分性看作是对数据的压缩,而完全性看作是对数据的无损压缩。

信息不等式

2.3.1 Definition: Cramer-Rao 正则族

设总体分布族为 $\{p(x; \theta) : \theta \in \Theta\}$,其中 $p(x; \theta)$ 为密度函数,$\Theta$ 是直线上的某一开区间。若分布族 $\{p(x; \theta) : \theta \in \Theta\}$ 满足以下条件:

  1. 支撑 $A_0 = \{x : p(x; \theta) > 0\}$ 与参数 $\theta$ 无关,且对任一固定的 $x \in A_0$,在参数空间 $\theta$ 上偏导数 $\frac{\partial \ln p(x; \theta)}{\partial \theta}$ 存在;
  2. 如果对一切 $\theta \in \Theta$$T(x_1, x_2, \ldots, x_n)$ 是满足 $E_\theta |T| < +\infty$ 的任一统计量,则有

$$\frac{\partial}{\partial \theta} \int_{-\infty}^{+\infty} \cdots \int_{-\infty}^{+\infty} T(x_1, x_2, \ldots, x_n) p(x_1, x_2, \ldots, x_n; \theta) \, dx_1 \cdots dx_n = \int_{-\infty}^{+\infty} \cdots \int_{-\infty}^{+\infty} T(x_1, x_2, \ldots, x_n) \frac{\partial}{\partial \theta} p(x_1, x_2, \ldots, x_n; \theta) \, dx_1 \cdots dx_n$$

其中 $p(x_1, x_2, \ldots, x_n; \theta)$ 为来自总体 $\{p(x; \theta) : \theta \in \Theta\}$ 的简单样本 $x_1, x_2, \ldots, x_n$ 的联合密度函数。则称分布族 $\{p(x; \theta) : \theta \in \Theta\}$ 为 Cramer-Rao 正则族。

2.3.* Definition: Fisher 信息量

定义 Fisher 信息量为

$$I(\theta) = E_\theta\left[\frac{\partial}{\partial\theta} \ln p(x; \theta)\right]^2$$

由上式可知 $0 \leqslant I(\theta) \leqslant +\infty$
如果 $\frac{d^2}{d\theta^2} \int_{-\infty}^{+\infty} p(x; \theta) \, dx = \int_{-\infty}^{+\infty} \frac{\partial^2 p(x; \theta)}{\partial \theta^2} \, dx$ 成立,则可以证明上式等价于

$$I(\theta) = -E_\theta\left[\frac{\partial^2}{\partial \theta^2} \ln p(x; \theta)\right]$$

可以证明:

  1. $x_1, \cdots , x_n$ 独立同分布,则 $I_n(\theta) = nI(\theta)$
  2. 若统计量 $T(x)$ 是样本的充分统计量,则 $I_T(\theta) = I_n(\theta )$

2.3.1 Theorem: 信息不等式

设总体的密度函数族 $\{p(x; \theta) : \theta \in \Theta\}$ 是 Cramer-Rao 正则族,且 $0 < I(\theta) < +\infty$$T(x_1, x_2, \ldots, x_n)$ 是对一切 $\theta \in \Theta$ 满足 $\text{Var}_\theta(T(x_1, x_2, \ldots, x_n)) < \infty$ 的统计量,令 $\varphi(\theta) = E_\theta(T(x_1, x_2, \ldots, x_n))$,则对一切 $\theta \in \Theta$$\varphi(\theta)$ 是可微的,且

$$\text{Var}_\theta(T(x_1, x_2, \ldots, x_n)) \geqslant \frac{[\varphi'(\theta)]^2}{n I(\theta)}$$

若取 $T(x_1, \cdots , x_n) \in U_q$,则有

$$\text{Var}_\theta(T(x_1, \cdots , x_n)) \geqslant \frac{[q'(\theta)]^2}{n I(\theta)}$$

$q(\theta ) = \theta$,则有

$$\text{Var}_\theta(T(x_1, \cdots , x_n)) \geqslant \frac{1}{n I(\theta)}$$

一致最小方差无偏估计的方差不一定达到 Cramer-Rao 下界,但若一个无偏估计量的方差达到 Cramer-Rao 下界,则其必为 UMVUE。

2.3.2 Definition: 有效估计

设分布族 $\{P_\theta : \theta \in \Theta\}$ 是 Cramer-Rao 正则族,$q(\theta)$ 是可估参数,若存在某个无偏估计 $\hat{q} \in U_q$,对所有的 $\theta \in \Theta$,有

$$\text{Var}_\theta(\hat{q}) = \frac{[q'(\theta)]^2}{n I(\theta)}$$

则称 $\hat{q}$ 为参数 $q(\theta)$ 的有效估计。

2.3.3 Definition: 有效率

对可估参数 $q(\theta)$ 的任一无偏估计 $T \in U_q$,令

$$e(T, q(\theta)) = \frac{\left[q'(\theta)\right]^2 / (n I(\theta))}{\text{Var}_\theta(T)}$$

则称 $e(T, q(\theta))$ 为使用 $T$ 估计 $q(\theta)$ 的有效率。

2.3.4 Definition: 渐近无偏估计

设总体分布族为 $\{P_\theta : \theta \in \Theta\}$$\{T_n\}$ 是参数 $q(\theta)$ 的估计序列,若对一切 $\theta \in \Theta$

$$\lim_{n \to \infty} E_\theta(T_n) = q(\theta)$$

则称 $T_n$ 为参数 $q(\theta)$ 的渐近无偏估计。

2.3.5 Definition: 渐近有效估计

$q(\theta)$ 是可估参数,若存在无偏估计序列 $T_n \in U_q$,使得对一切 $\theta \in \Theta$

$$\lim_{n \to \infty} e(T_n, q(\theta)) = \lim_{n \to \infty} \frac{\left[q'(\theta)\right]^2 / (n I(\theta))}{\text{Var}_\theta(T_n)} = 1$$

则称 $T_n$$q(\theta)$ 的渐近有效估计。

2.4.1 Definition: 相合估计

$\hat{q}_n = \hat{q}_n(x_1, x_2, \ldots, x_n)$ 是参数 $q(\theta)$ 的任一估计序列,如果 $\{\hat{q}_n\}$ 依概率收敛于参数真值 $q(\theta)$,即对任意的 $\varepsilon > 0$

$$\lim_{n \to \infty} P_\theta\{\mid \hat{q}_n - q(\theta) \mid \geqslant \varepsilon\} = 0$$

对任意的 $\theta \in \Theta$ 成立,则称 $\hat{q}_n$$q(\theta)$ 的相合估计。

2.4.1 Theorem: 连续函数的相合估计

如果 $\hat{q}_n$$q(\theta)$ 的相合估计,且函数 $g(y)$$y = q(\theta)$ 处连续,则 $g(\hat{q}_n)$$g(q(\theta))$ 的相合估计。

2.4.2 Definition: 渐近正态估计

$\hat{q}_n = \hat{q}(x_1, x_2, \ldots, x_n)$ 是参数 $q(\theta)$ 的估计序列,对任意的 $\theta \in \Theta$,若存在满足 $0 \leqslant \sigma^2(\theta) < +\infty$$\sigma^2(\theta)$,对任意的实数 $x \in \mathbb{R}$,有

$$\lim_{n \to \infty} P\left\{\sqrt{n}[\hat{q}_n - q(\theta)] \leqslant x\right\} = \int_{-\infty}^{x} \frac{1}{\sqrt{2\pi \sigma^2(\theta)}} \exp\left\{-\frac{u^2}{2 \sigma^2(\theta)}\right\} \, du$$

则称 $\hat{q}_n$ 具有渐近正态性,记为 $\hat{q}_n \sim AN\left(q(\theta), \frac{\sigma^2(\theta)}{n}\right)$,称 $\frac{\sigma^2(\theta)}{n}$ 为渐近方差,也称 $\hat{q}_n$$q(\theta)$ 的渐近正态估计。

可以证明,频率替换估计、矩估计、极大似然估计都是渐近正态性估计。
一般来说,极大似然估计的渐近方差 $\frac{\sigma ^2(\theta )}{n} = \frac{[q'(\theta )]^2}{nI(\theta )}$,即 $\sigma ^2(\theta ) = \frac{[q'(\theta )]^2}{I(\theta )}$,称具有该性质的估计为最优渐近正态估计。
相合性证明一般会用到切比雪夫不等式或马尔可夫不等式。

2.4.* Lemma: 马尔可夫不等式

设随机变量$X$$l$次幂的期望存在,则对于任意$\varepsilon > 0$,有

\[P\{|X|\geqslant\varepsilon\} \leqslant \frac{E\left(|X|^l\right)}{\varepsilon^l}, \quad l=1,2,\cdots, k\]

区间估计

2.5.1 Definition: 置信区间

设总体的分布族为$\{P_\theta: \theta \in \Theta\}$,其中$\theta$是一维参数。若存在两个统计量$T_1(x)$$T_2(x)$,对给定的$\alpha (0 < \alpha < 1)$

\[P_\theta\{T_1(x_1, x_2, \cdots, x_n) \leqslant \theta \leqslant T_2(x_1, x_2, \cdots, x_n)\} \geqslant 1 - \alpha\]

对所有的$\theta \in \Theta$都成立,则称随机区间$[T_1, T_2]$为参数$\theta$的置信水平为$1-\alpha$的置信区间,称$T_1$为置信下限,称$T_2$为置信上限,称$1-\alpha$为置信水平或置信度。

2.5.2 Definition: 单侧置信区间

设总体的分布族为$\{P_\theta: \theta \in \Theta\}$,其中$\theta$是一维参数。若存在统计量$T_1(x_1, x_2, \cdots, x_n)$,对给定的$1-\alpha (0 < \alpha < 1)$,有

\[P_\theta\{\theta \geqslant T_1(x_1, x_2, \cdots, x_n)\} \geqslant 1 - \alpha \quad (2.5.5)\]

对所有$\theta \in \Theta$都成立,则称$T_1$为参数$\theta$的置信水平为$1-\alpha$的置信下限。若存在统计量$T_2(x_1, x_2, \cdots, x_n)$,对给定的$1-\alpha (0 < \alpha < 1)$,有
\[P_\theta\{\theta \leqslant T_2(x_1, x_2, \cdots, x_n)\} \geqslant 1 - \alpha \quad (2.5.6)\]

对所有$\theta \in \Theta$都成立,则称$T_2$为参数$\theta$的置信水平为$1-\alpha$的置信上限。

{注}:求解的关键为寻找枢轴变量,即包含统计量和参数的函数 $g(\hat{\theta }, \theta )$,且其分布已知。实际中一般取对称随机区间,即 $T_1 = -T_2$