由 Bernoulli 大数定律可知,当 $n \to \infty$ 时,有
所以概率 $p$ 的最简单的估计值可以选取 $\hat{p} = \frac{n_i}{n}$。这种估计方法称为频率替换法。
在实际情况中,概率 $p_i$ 除了满足条件 \(\sum_{i=1}^m p_i=1\) 外,还是 \(s\) 维参数 \(\theta=\left(\theta_1,\theta_2,\cdots,\theta_s\right)\) 的连续函数,即
其中 \(s\leqslant m\)。需要估计的是 \(\theta\) 的部分分量或其连续函数 \(q(\theta)\)。若求解上述方程组,可将 \(\theta_i\) 表示成 \(p_i\) 的函数,并代入 \(q(\theta)\),可得表达式 \(q(\theta)=g\left(p_1, p_2,\cdots, p_m\right)\),且 \(g\) 是区域
上的连续函数,则由频率替换原理可得 \(q(\theta)\) 的频率替换估计为 \(g\left(\frac{n_1}{n},\frac{n_2}{n},\ldots,\frac{n_m}{n}\right)\)。
令
由大数定律可知,有
所以,对于一个随机变量 $\xi$,其 $k$ 阶原点矩 $\mu _k$(或中心原点矩$v_k$)的最简单的估计值可以选取 $A_k(B_k)$。这种估计方法称为矩估计。
在实际情况中,$\mu_k$ 为要估计变量 $\theta$ 的函数,即:
将估计量 $\theta$ 表示为 $\mu _k$(或 $v_k$) 的函数,即:
2.1.1 Definition: 极大似然估计
若在参数空间 $\Theta$ 中存在 $\hat{\theta}(x_1, x_2,\ldots, x_n)$ 使得下式成立:
$$L(\hat{\theta}(x_1, x_2,\cdots, x_n); x_1, x_2,\cdots, x_n) = \sup_{\theta \in \Theta} \{L(\theta; x_1, x_2,\cdots, x_n)\}$$则称 $\hat{\theta}(x_1, x_2,\ldots, x_n)$ 为参数 $\theta$ 的极大似然估计(Maximum Likelihood Estimate),简称 MLE。
最大似然估计的本质:在给定观测数据的情况下,估计参数使得这组数据出现的概率最大的参数。故其一般归结为求取函数的最值问题,特别注意参数的最值是否在取值范围内。
若使用统计量 $T(x) = T(x_1,\cdots ,x_n)$ 估计参数 $q(\theta)$,使用均方误差作为评价估计好坏的标准。
均方误差定义如下:
其中 $b(q(\theta), T) = E_\theta(T(x)) - q(\theta)$ 为偏差。
可以看出一个估计量的均方误差由两部分组成:估计的稳定性和估计的无偏性。
2.2.1 Definition: 估计的比较
设 $S(x)$ 和 $T(x)$ 是参数 $q(\theta)$ 的两个估计,若对所有的 $\theta \in \Theta$,有
$$\text{MSE}_\theta(T(x)) \leqslant \text{MSE}_\theta(S(x))$$且对某些 $\theta \in \Theta$ 不等式成立,则称 $T(x)$ 比 $S(x)$ 好,或 $T(x)$ 不比 $S(x)$ 差,此时也称 $S(x)$ 是非容许的。
2.2.2 Definition: 无偏估计
设统计量 $T(x)$ 是参数 $q(\theta)$ 的一个估计,若对所有的 $\theta \in \Theta$,有
$$E_\theta(T(x)) = q(\theta) \qquad (2.2.4)$$成立,即偏差 $b(q(\theta), T(x)) = 0$,则称 $T(x)$ 为 $q(\theta)$ 的无偏估计(Unbiased Estimate),否则称其为有偏估计。
{注}:
2.2.3 Definition: 可估参数
若参数 $q(\theta)$ 的无偏估计存在,则称 $q(\theta)$ 是可估的。今后,若无特别声明,均假设参数 $q(\theta)$ 是可估的。令
$$U_q = \left\{ T(x) : E_\theta(T(x)) = q(\theta), \text{Var}_\theta(T(x)) < \infty, \forall \theta \in \Theta \right\}$$
2.2.4 Definition: 一致最小方差无偏估计
若存在无偏估计 $T^{*}(x) \in U_{q}$,使得对任何估计 $T(x) \in U_{q}$,不等式
$$\text{Var}_\theta\left(T^*(x)\right) \leqslant \text{Var}_\theta(T(x))$$对所有的 $\theta \in \Theta$ 都成立,则称 $T^{*}(x)$ 为参数 $q(\theta)$ 的一致最小方差无偏估计(UMVUE)。
为存在性定理叙述方便,令
即 $U_0$ 表示均值为零,方差有限的统计量所组成的类。
2.2.1 Theorem: UMVUE 的存在性
设 $T(x) \in U_q$,$T(x)$ 是 $q(\theta)$ 一致最小方差无偏估计的充分必要条件是对 $\forall T_0(x) \in U_0$,等式
$$E_\theta[T_0(x)T(x)] = 0$$对所有的 $\theta \in \Theta$ 都成立。
2.2.1 Corollary: UMVUE 的线性组合
设统计量 $T_1(x)$ 和 $T_2(x)$ 分别是可估函数 $q_1(\theta)$ 和 $q_2(\theta)$ 的一致最小方差无偏估计,则对任意常数 $a$ 和 $b$,$aT_1(x) + bT_2(x)$ 是 $aq_1(\theta) + bq_2(\theta)$ 的一致最小方差无偏估计。
2.2.2 Theorem: UMVUE 的唯一性
设 $q(\theta)$ 是可估函数,且 $T(x)$ 和 $S(x)$ 都是 $q(\theta)$ 的一致最小方差无偏估计,则对所有 $\theta \in \Theta$,有 $P_\theta\{T(x) = S(x)\} = 1$,即在概率 1 下,$q(\theta)$ 的一致最小方差无偏估计是唯一的。
由上可得,UMVUE 是存在且唯一的,但仍然没有给出 UMVUE 的具体构造方法。
2.2.3 Theorem: Rao-Blackwell 定理
设总体 $X$ 的分布族为 $\{P_\theta : \theta \in \Theta\}$,$S(x)$ 是充分统计量,$\varphi(x) \in U_q$,则在给定 $S(x)$ 下,$\varphi(x)$ 的条件数学期望
$$T(x) = E_\theta(\varphi(x) \mid S(x))$$也是 $q(\theta)$ 的方差有限的无偏估计,即 $T(x) \in U_q$,且对一切 $\theta \in \Theta$,有
$$\text{Var}_\theta(T(x)) \leqslant \text{Var}_\theta(\varphi(x))$$等号是当且仅当 $P_\theta\{T(x) = \varphi(x)\} = 1$ 时成立。
该定理给出了寻找 UMVUE 的方向,即通过充分统计量的条件期望来构造。
设 $S(x)$ 为充分统计量,令
显然有 $U_q^S \subset U_q$,因为 $T(x) = E_\theta(\varphi(x) \mid S(x))$ 也是 $q(\theta)$ 的无偏估计,且方差有限。同时若有 $T(x) = h(S(x))$,且 $E(T(x)) = q(\theta )$,这是因为
2.2.5 Definition: 完全统计量
设总体 $X$ 的分布族为 $\{P_\theta : \theta \in \Theta\}$,$g(X)$ 是任一随机变量,如果对一切 $\theta \in \Theta$,$E_\theta(g(X)) = 0$ 成立,就意味着对一切 $\theta \in \Theta$,必有 $P_\theta\{g(X) = 0\} = 1$ 成立,则称总体的分布族 $\{P_\theta : \theta \in \Theta\}$ 是完全的。
设 $x_1, x_2, \ldots, x_n$ 是来自总体 $X$ 的简单样本,如果统计量 $T(x_1, x_2, \ldots, x_n)$ 的分布族是完全的,则称 $T$ 是完全统计量。
从定义出发寻找完全统计量较为困难,下面的定理给出寻找完全统计量的方法。
2.2.4 Theorem: 完全充分统计量构造
设 $x_1, x_2, \ldots, x_n$ 是来自总体 $\{P_\theta : \theta \in \Theta\}$ 的简单样本,总体的密度函数为 $p(x; \theta)$,且样本 $x_1, x_2, \ldots, x_n$ 的联合密度函数(或联合分布列)可分解为
$$p(x_1, x_2, \ldots, x_n; \theta) = c(\theta) h(x_1, x_2, \ldots, x_n) \exp\left\{\sum_{k=1}^{m} w_k(\theta) T_k(x_1, x_2, \ldots, x_n)\right\}$$其中 $h(x_1, x_2, \ldots, x_n)$ 仅是 $x_1, x_2, \ldots, x_n$ 的函数,$w = w(\theta) = (w_1(\theta), \ldots, w_m(\theta))$ 是定义在 m 维参数空间 $\Theta$ 上取值于 $A \subset \mathbb{R}^m$ 的向量函数,$c(\theta)$ 仅是 $\theta$ 的函数。如果 $w(\theta)$ 值域 $\Lambda$ 包含内点,则 m 维统计量
$$T(x_1, x_2, \ldots, x_n) = (T_1(x_1, x_2, \ldots, x_n), T_2(x_1, x_2, \ldots, x_n), \ldots, T_m(x_1, x_2, \ldots, x_n))$$是完全充分的。
2.2.5 Theorem: Lehmann-Scheffe 定理
设 $S(x)$ 是完全充分统计量, $\varphi(x) \in U_q$,则 $T(x) = E_\theta(\varphi(x) \mid S(x))$ 是 $q(\theta)$ 唯一的一致最小方差无偏估计。
该定理有两种等价叙述:
若能获得 $q(\theta)$ 的无偏估计 $\varphi(x)$,则 $\varphi(x)$ 关于 $S(x)$ 的条件数学期望 $T(x) = E_\theta(\varphi(x) \mid S(x))$ 就是 $q(\theta)$ 的一致最小方差无偏估计;
由于 $q(\theta)$ 的一致最小方差无偏估计 $T(x)$ 一定是完全充分统计量 $S(x)$ 的函数,所以若能获得完全充分统计量 $S(x)$ 的函数 $h(S(x))$,并将其无偏化,就可获得 $q(\theta)$ 的一致最小方差无偏估计。
可直观的把充分性看作是对数据的压缩,而完全性看作是对数据的无损压缩。
2.3.1 Definition: Cramer-Rao 正则族
设总体分布族为 $\{p(x; \theta) : \theta \in \Theta\}$,其中 $p(x; \theta)$ 为密度函数,$\Theta$ 是直线上的某一开区间。若分布族 $\{p(x; \theta) : \theta \in \Theta\}$ 满足以下条件:
- 支撑 $A_0 = \{x : p(x; \theta) > 0\}$ 与参数 $\theta$ 无关,且对任一固定的 $x \in A_0$,在参数空间 $\theta$ 上偏导数 $\frac{\partial \ln p(x; \theta)}{\partial \theta}$ 存在;
- 如果对一切 $\theta \in \Theta$,$T(x_1, x_2, \ldots, x_n)$ 是满足 $E_\theta |T| < +\infty$ 的任一统计量,则有
$$\frac{\partial}{\partial \theta} \int_{-\infty}^{+\infty} \cdots \int_{-\infty}^{+\infty} T(x_1, x_2, \ldots, x_n) p(x_1, x_2, \ldots, x_n; \theta) \, dx_1 \cdots dx_n = \int_{-\infty}^{+\infty} \cdots \int_{-\infty}^{+\infty} T(x_1, x_2, \ldots, x_n) \frac{\partial}{\partial \theta} p(x_1, x_2, \ldots, x_n; \theta) \, dx_1 \cdots dx_n$$其中 $p(x_1, x_2, \ldots, x_n; \theta)$ 为来自总体 $\{p(x; \theta) : \theta \in \Theta\}$ 的简单样本 $x_1, x_2, \ldots, x_n$ 的联合密度函数。则称分布族 $\{p(x; \theta) : \theta \in \Theta\}$ 为 Cramer-Rao 正则族。
2.3.* Definition: Fisher 信息量
定义 Fisher 信息量为
$$I(\theta) = E_\theta\left[\frac{\partial}{\partial\theta} \ln p(x; \theta)\right]^2$$由上式可知 $0 \leqslant I(\theta) \leqslant +\infty$。
如果 $\frac{d^2}{d\theta^2} \int_{-\infty}^{+\infty} p(x; \theta) \, dx = \int_{-\infty}^{+\infty} \frac{\partial^2 p(x; \theta)}{\partial \theta^2} \, dx$ 成立,则可以证明上式等价于
$$I(\theta) = -E_\theta\left[\frac{\partial^2}{\partial \theta^2} \ln p(x; \theta)\right]$$
可以证明:
2.3.1 Theorem: 信息不等式
设总体的密度函数族 $\{p(x; \theta) : \theta \in \Theta\}$ 是 Cramer-Rao 正则族,且 $0 < I(\theta) < +\infty$,$T(x_1, x_2, \ldots, x_n)$ 是对一切 $\theta \in \Theta$ 满足 $\text{Var}_\theta(T(x_1, x_2, \ldots, x_n)) < \infty$ 的统计量,令 $\varphi(\theta) = E_\theta(T(x_1, x_2, \ldots, x_n))$,则对一切 $\theta \in \Theta$,$\varphi(\theta)$ 是可微的,且
$$\text{Var}_\theta(T(x_1, x_2, \ldots, x_n)) \geqslant \frac{[\varphi'(\theta)]^2}{n I(\theta)}$$
若取 $T(x_1, \cdots , x_n) \in U_q$,则有
若 $q(\theta ) = \theta$,则有
一致最小方差无偏估计的方差不一定达到 Cramer-Rao 下界,但若一个无偏估计量的方差达到 Cramer-Rao 下界,则其必为 UMVUE。
2.3.2 Definition: 有效估计
设分布族 $\{P_\theta : \theta \in \Theta\}$ 是 Cramer-Rao 正则族,$q(\theta)$ 是可估参数,若存在某个无偏估计 $\hat{q} \in U_q$,对所有的 $\theta \in \Theta$,有
$$\text{Var}_\theta(\hat{q}) = \frac{[q'(\theta)]^2}{n I(\theta)}$$则称 $\hat{q}$ 为参数 $q(\theta)$ 的有效估计。
2.3.3 Definition: 有效率
对可估参数 $q(\theta)$ 的任一无偏估计 $T \in U_q$,令
$$e(T, q(\theta)) = \frac{\left[q'(\theta)\right]^2 / (n I(\theta))}{\text{Var}_\theta(T)}$$则称 $e(T, q(\theta))$ 为使用 $T$ 估计 $q(\theta)$ 的有效率。
2.3.4 Definition: 渐近无偏估计
设总体分布族为 $\{P_\theta : \theta \in \Theta\}$,$\{T_n\}$ 是参数 $q(\theta)$ 的估计序列,若对一切 $\theta \in \Theta$ 有
$$\lim_{n \to \infty} E_\theta(T_n) = q(\theta)$$则称 $T_n$ 为参数 $q(\theta)$ 的渐近无偏估计。
2.3.5 Definition: 渐近有效估计
设 $q(\theta)$ 是可估参数,若存在无偏估计序列 $T_n \in U_q$,使得对一切 $\theta \in \Theta$ 有
$$\lim_{n \to \infty} e(T_n, q(\theta)) = \lim_{n \to \infty} \frac{\left[q'(\theta)\right]^2 / (n I(\theta))}{\text{Var}_\theta(T_n)} = 1$$则称 $T_n$ 为 $q(\theta)$ 的渐近有效估计。
2.4.1 Definition: 相合估计
设 $\hat{q}_n = \hat{q}_n(x_1, x_2, \ldots, x_n)$ 是参数 $q(\theta)$ 的任一估计序列,如果 $\{\hat{q}_n\}$ 依概率收敛于参数真值 $q(\theta)$,即对任意的 $\varepsilon > 0$ 有
$$\lim_{n \to \infty} P_\theta\{\mid \hat{q}_n - q(\theta) \mid \geqslant \varepsilon\} = 0$$对任意的 $\theta \in \Theta$ 成立,则称 $\hat{q}_n$ 是 $q(\theta)$ 的相合估计。
2.4.1 Theorem: 连续函数的相合估计
如果 $\hat{q}_n$ 是 $q(\theta)$ 的相合估计,且函数 $g(y)$ 在 $y = q(\theta)$ 处连续,则 $g(\hat{q}_n)$ 是 $g(q(\theta))$ 的相合估计。
2.4.2 Definition: 渐近正态估计
设 $\hat{q}_n = \hat{q}(x_1, x_2, \ldots, x_n)$ 是参数 $q(\theta)$ 的估计序列,对任意的 $\theta \in \Theta$,若存在满足 $0 \leqslant \sigma^2(\theta) < +\infty$ 的 $\sigma^2(\theta)$,对任意的实数 $x \in \mathbb{R}$,有
$$\lim_{n \to \infty} P\left\{\sqrt{n}[\hat{q}_n - q(\theta)] \leqslant x\right\} = \int_{-\infty}^{x} \frac{1}{\sqrt{2\pi \sigma^2(\theta)}} \exp\left\{-\frac{u^2}{2 \sigma^2(\theta)}\right\} \, du$$则称 $\hat{q}_n$ 具有渐近正态性,记为 $\hat{q}_n \sim AN\left(q(\theta), \frac{\sigma^2(\theta)}{n}\right)$,称 $\frac{\sigma^2(\theta)}{n}$ 为渐近方差,也称 $\hat{q}_n$ 为 $q(\theta)$ 的渐近正态估计。
可以证明,频率替换估计、矩估计、极大似然估计都是渐近正态性估计。
一般来说,极大似然估计的渐近方差 $\frac{\sigma ^2(\theta )}{n} = \frac{[q'(\theta )]^2}{nI(\theta )}$,即 $\sigma ^2(\theta ) = \frac{[q'(\theta )]^2}{I(\theta )}$,称具有该性质的估计为最优渐近正态估计。
相合性证明一般会用到切比雪夫不等式或马尔可夫不等式。
2.4.* Lemma: 马尔可夫不等式
设随机变量$X$的$l$次幂的期望存在,则对于任意$\varepsilon > 0$,有
\[P\{|X|\geqslant\varepsilon\} \leqslant \frac{E\left(|X|^l\right)}{\varepsilon^l}, \quad l=1,2,\cdots, k\]
2.5.1 Definition: 置信区间
设总体的分布族为$\{P_\theta: \theta \in \Theta\}$,其中$\theta$是一维参数。若存在两个统计量$T_1(x)$及$T_2(x)$,对给定的$\alpha (0 < \alpha < 1)$有
\[P_\theta\{T_1(x_1, x_2, \cdots, x_n) \leqslant \theta \leqslant T_2(x_1, x_2, \cdots, x_n)\} \geqslant 1 - \alpha\]对所有的$\theta \in \Theta$都成立,则称随机区间$[T_1, T_2]$为参数$\theta$的置信水平为$1-\alpha$的置信区间,称$T_1$为置信下限,称$T_2$为置信上限,称$1-\alpha$为置信水平或置信度。
2.5.2 Definition: 单侧置信区间
设总体的分布族为$\{P_\theta: \theta \in \Theta\}$,其中$\theta$是一维参数。若存在统计量$T_1(x_1, x_2, \cdots, x_n)$,对给定的$1-\alpha (0 < \alpha < 1)$,有
\[P_\theta\{\theta \geqslant T_1(x_1, x_2, \cdots, x_n)\} \geqslant 1 - \alpha \quad (2.5.5)\]
对所有$\theta \in \Theta$都成立,则称$T_1$为参数$\theta$的置信水平为$1-\alpha$的置信下限。若存在统计量$T_2(x_1, x_2, \cdots, x_n)$,对给定的$1-\alpha (0 < \alpha < 1)$,有
\[P_\theta\{\theta \leqslant T_2(x_1, x_2, \cdots, x_n)\} \geqslant 1 - \alpha \quad (2.5.6)\]
对所有$\theta \in \Theta$都成立,则称$T_2$为参数$\theta$的置信水平为$1-\alpha$的置信上限。
{注}:求解的关键为寻找枢轴变量,即包含统计量和参数的函数 $g(\hat{\theta }, \theta )$,且其分布已知。实际中一般取对称随机区间,即 $T_1 = -T_2$。