上一篇笔记传送门:数理统计|笔记整理(A)——假设检验进阶:似然比视角再看假设检验
下一篇笔记传送门:数理统计|笔记整理(C)——方差分析,贝叶斯统计概述
——————————————————————————————————————
大家好!
我们在上一节介绍了高等数理统计视角下的假设检验问题。在这一节呢,我们会继续介绍似然比检验的相关内容,并且在我们介绍完假设检验之后,将引入区间估计的相关内容。
我们花了非常多的篇幅去介绍点估计的相关理论,但是有一个问题就是,点估计只能提供对未知参数的一个测度为0的估计,也就是说,真实值和估计值相等的概率为0,这显然不是我们希望看到的结果。因此我们考虑将点扩大为面,也就是说,我们根据估计值,设计一个真实值可能在的区间,并且用理论证明这个区间有很大的可能涵盖真实值,那么一定程度上就可以解决我们的麻烦。
那么我们开始吧。
目录
- 似然比检验
- 区间估计
- 引入
- 枢轴量法
- 渐近分布下的枢轴量法
- 容忍区间与容忍限
似然比检验
似然比检验由Neyman和E.Pearson在1928年提出。我们在上一节已经完全地给大家介绍过似然比视角下的假设检验问题,因此再来看这个检验的方法和技巧难度就会相对低一些。
首先我们来看一下它的相关定义
Definition 1: Generalized Likelihood Ratio
设 x_1, \cdots, x_n 为来自密度函数为 p(x;\theta), \theta \in \Theta 的样本,考虑检验问题 H_0: \theta \in \Theta_0 \quad vs \quad H_1: \theta \in \Theta_1 = \Theta - \Theta_0 ,令 \Lambda(x_1,\cdots, x_n) = \frac{\sup_{\theta \in \Theta} p(x_1,\cdots,x_n;\theta)}{\sup_{\theta \in \Theta_0} p(x_1,\cdots,x_n;\theta)} ,那么称它为假设检验问题的广义似然比。 这里有两个要注意的地方。第一是很多书上会直接定义它为似然比,但是这样的话定义会与上一节冲突,所以我们这里一律写成广义似然比。第二是这里拒绝域和接受域变成了对立事件,也就是说参数空间中的每一个点,一定落在这两个区域中的一个,这也是似然比检验的一个重要的特点。
我们可以看出来,广义似然比定义下的分子分母都有一个上确界的符号,仔细观察一下,分子就相当于在全参数空间下取联合概率密度的最大值,分母相当于在原假设参数空间下取联合概率密度的最大值,所以这个比值就是两个极大似然估计的比值。直观来看,如果原假设是正确的,那么参数应该会落在原假设的参数空间内,换句话说,分子的最大值对应的参数应该落在 \Theta_0 ,所以这个比值就不会太大。但是,反过来说,如果原假设应该被拒绝,那么参数就有很大可能落在拒绝域,那么全参数空间的最大值就会在 \theta \in \Theta_1 中取到,那么这个时候比值就会变大。所以你可以看出来,拒绝域顺理成章的应该设置为
W = \{\Lambda(x_1,\cdots,x_n) \ge c\} 其中临界值 c 要满足 P_{\theta}(\Lambda(x_1,\cdots,x_n) \ge c) \le \alpha, \forall \theta \in \Theta_0
我们举一个例子来看一下如何做似然比检验,这里也涉及到了一些技巧。
Example 1:
设 x_1, \cdots, x_n 为来自正态总体 N(\mu, \sigma^2) 的样本, \mu, \sigma^2 未知,求假设检验问题 H_0: \mu = \mu_0 \quad vs \quad H_1: \mu \ne \mu_0 的显著性水平为 \alpha 的似然比检验,并推导出它与t检验的关系。 对于似然比检验,需要做这么几件事。第一:写出对应的参数空间下的联合概率密度函数。这里可以看出,两个参数空间分别为
\Theta_0 = \{(\mu_0, \sigma^2) | \sigma^2 > 0\}, \Theta = \{(\mu, \sigma^2)| \mu \in \mathbb{R}, \sigma^2 > 0\} 为了方便,我们先计算全参数空间下的极大似然估计,这个对大家来说相信已经是家常便饭,它的极大似然估计分别为 \hat \mu = \bar x, \hat \sigma^2 = \frac1n \sum_{i=1}^n (x_i - \bar x )^2 。同时它的联合密度函数为
p(x_1,\cdots,x_n;\theta) = (2\pi \sigma^2)^{-\frac n 2}\exp\{-\frac1{2\sigma^2} \sum_{i=1}^n (x_i - \mu)^2\} 那么在下,结果有什么变化吗?注意 \Theta_0 相当于限制了 \mu = \mu_0 ,所以对应的 \mu 的MLE下的取值只有可能是 \mu_0 。在这个情况下,联合概率密度函数(似然函数)就变成了
p(x_1,\cdots,x_n;\sigma^2) = (2\pi \sigma^2)^{-\frac n 2}\exp\{-\frac1{2\sigma^2} \sum_{i=1}^n (x_i - \mu_0)^2\} 这里我们用一下高等数理统计中才会介绍的子集参数似然的技巧。这里是相当于求多参数的极大似然估计,然后注意我们在全参数下先求出了 \hat \mu = \bar x ,所以代回去,就相当于似然函数变成了
p(x_1,\cdots,x_n;\sigma^2) = (2\pi \sigma^2)^{-\frac n 2}\exp\{-\frac1{2\sigma^2} \sum_{i=1}^n (x_i - \bar x)^2\} 所以得到了 \hat \sigma^2 = \frac1n \sum_{i=1}^n (x_i - \bar x)^2 。那么在原假设参数空间下,因为对应的 \bar x 换成了 \mu_0 ,所以这里的 \hat \sigma^2 也就相应变成了 \hat \sigma^2 = \frac1n \sum_{i=1}^n (x_i - \mu_0)^2 。
都求解出来之后就可以把它们代回似然函数中去了,这里得到的似然比检验函数为
\Lambda(x_1, \cdots, x_n) = [\frac{\sum_{i=1}^n (x_i - \mu_0)^2}{\sum_{i=1}^n (x_i - \bar x)^2}]^{\frac n 2} 到这里理论上就可以结束了,但是对于下一个问题,我们很明显还需要对式子做进一步的分解。注意到t检验统计量为 t = \frac{\sqrt{n} (\bar x -\mu_0) }{s} , s 为样本标准差,所以这里很明显要在分子中拆出这样的项。所以对应的式子为
[\frac{\sum_{i=1}^n (x_i - \mu_0)^2}{\sum_{i=1}^n (x_i - \bar x)^2}]^{\frac n 2} = [\frac{\sum_{i=1}^n (x_i - \bar x + \bar x - \mu_0)^2}{\sum_{i=1}^n (x_i - \bar x)^2}]^{\frac n 2} 那么注意到
\sum_{i=1}^n (x_i - \bar x)(\bar x - \mu_0) = (\bar x - \mu_0) \sum_{i=1}^n(x_i - \bar x) = 0 (数理统计中,证明均值满足最小平方和的极值点的性质,和《回归分析》中,均使用了这个技巧),所以可以得到
[\frac{\sum_{i=1}^n (x_i - \bar x + \bar x - \mu_0)^2}{\sum_{i=1}^n (x_i - \bar x)^2}]^{\frac n 2} = [\frac{\sum_{i=1}^n (x_i - \bar x)^2 + n(\bar x - \mu_0)^2}{\sum_{i=1}^n (x_i - \bar x)^2}]^{\frac n 2}
= (1+\frac{t^2}{n-1})^{\frac n2} 所以你可以看出来,这是一个类二次函数, \{\Lambda(x_1,\cdots,x_n) \ge c\} 与 \{|t| \ge d\} 这两个集合等价。写到这里你会发现这里对应的应该是双边检验,事实上根据我们检验问题中的 H_0 也确实可以证明这一点。
通过这个题,我们再强调一下,虽然似然比检验和显著性检验多数情况下可以导出类似的结果,但是似然比检验关注 H_0 来确定似然比,而显著性检验是关注 H_1 的。
到此,我们算是完整的介绍完了假设检验的相关内容,更高阶的内容可以参考文章第一节开头所提到的参考书目。
区间估计
引入
从这一部分开始,我们开始介绍区间估计的相关内容。首先我们需要说明置信区间的定义。
Definition 2: Confidence Interval
若统计量 \underline{\theta}(X), \overline{\theta}(X) 满足关系 P_\theta\{\underline{\theta}(X) \le \theta \le \overline{\theta}(X)\} \ge 1-\alpha, \forall \theta \in \Theta
则称 [\underline{\theta}(X), \overline{\theta}(X)] 为未知参数的一个水平为 1-\alpha 的置信区间,并且称二者分别为置信下限和置信上限。如果它们满足 P_\theta\{\theta \le \overline{\theta}(X)\} \ge 1-\alpha , P_\theta\{\theta \ge \underline{\theta}(X)\} \ge 1-\alpha
这个时候定义不变,但是置信区间分别变为 [-\infty, \overline{\theta}(X)] 和 [\underline{\theta}(X), +\infty] 。 那么同样的,如果我们设 \phi = g(\theta) ,并且为严增函数,那么就会出现
P_\theta\{g(\underline{\theta}(X)) \le \phi = g(\theta) \le g(\overline{\theta}(X))\} \ge 1-\alpha, \forall \theta \in \Theta 所以说 [g(\overline{\theta}(X)), g(\overline{\theta}(X))] 就是一个水平为 1-\alpha 的置信区间。同样的,如果说参数是多元的,此时区间就会变成区域,对应的就是 P_\theta\{X: \theta \in S(X)\} \ge 1-\alpha 不过因为我们主要的名词还是“区间”(毕竟是区间估计嘛),所以我们还是以单参数为主啦。
下面我们的重点在于:如何通过之前已经有的点估计的结果,来推导我们的置信区间。
枢轴量法
它的基本步骤如下
1. 构造一个样本和 \theta 的函数 G = G(x_1,\cdots,x_n, \theta) 使得 G 的分布不依赖于未知参数,并称它为枢轴量。
2. 选择常数 c, d ,使得对于给定的 \alpha ,有 P(c \le G \le d) = 1-\alpha
3. 将式子进行变形,得到 \underline{\theta}(X) \le \theta \le \overline{\theta}(X) ,那么这就是一个符合条件的置信区间。 我们举两个不同的例子来说明这个方法。
Example 2:
设 X_1,\cdots,X_n 为独立同分布的样本, X_1 \sim N(\mu, \sigma^2) ,求 \sigma^2, \sigma 的水平为 1-\alpha 的置信区间和 \sigma^2 的置信上限。 因为 \sigma^2 是 \sigma 的函数,所以在这种情况下,我们很显然先计算 \sigma^2 的有关结果会更好一些。
设 S = \sum_{i=1}^n (X_i - \bar X)^2 ,那么根据抽样定理,我们有 \frac{S}{(n-1)\sigma^2} \sim \chi^2(n-1) ,这说明这个统计量与未知参数是无关的,所以根据这个结果,我们就可以取枢轴量为
G(X) = \frac{S(X)}{\sigma^2} 因为它的分布已知,所以可以得到
P_\sigma\{\chi^2(n-1, \frac \alpha 2) \le \frac{S(X)}{\sigma^2} \le \chi^2(n-1, 1-\frac \alpha 2)\} = 1 - \alpha 将式子化成 \sigma^2 的区间表达式,就可以得到对应的置信区间的上下界为 \underline{\sigma^2}(X) = \frac{S(X)}{\chi^2(n-1, 1-\frac \alpha 2)}, \overline{\sigma^2}(X) = \frac{S(X)}{\chi^2(n-1, \frac \alpha 2)} ,那么如果要求 \sigma 的对应结果,那就是 [\underline{\sigma}(X), \overline{\sigma}(X)] 。至于置信上限,实际上就是要求 P_\theta\{\theta \le \overline{\theta}(X)\} \ge 1-\alpha ,因此我们实际上取 \overline{\sigma^2} = \frac{S(X)}{\chi^2(n-1, \alpha)} 就可以了。
Example 3:
设 X_1,\cdots,X_n 为独立同分布的样本, X_1 \sim \mu + \Gamma(1, \frac1 \sigma) ,求 \sigma, \mu 的水平为 1-\alpha 的置信区间以及它们的联合置信域。 在这个题目中,我们要关注的是伽马分布的枢轴量。枢轴量是要与未知参数无关的,第一印象浮现在脑海里的,自然就是辅助统计量了。因此我们自然会考虑完备充分统计量来解决这个问题。
注意到在这个分布中,完备充分统计量为 T = (X_{(1)}, S(X)) ,其中 S(X) = \sum_{i=1}^n (X_i - X_{(1)}) ,它与 X_{(1)} 是独立的(这个性质,包括后面的分布,我们会在之后介绍证明,这里先用上)。那么因为
X_{(1)} \sim \mu + \Gamma(1, \frac n \sigma), S(X) \sim \Gamma( n-1, \frac1\sigma) (一样,下面会证明)所以根据伽马分布的可乘性,可以得到 \frac2 \sigma S(X) \sim \Gamma(n-1, \frac12) = \chi^2(2n-2) 。这个分布与参数是无关的,所以还是一样左右各分 \frac{\alpha}2 的概率,可以得到
P_\sigma\{\chi^2(2n-2, \frac \alpha 2) \le \frac2 \sigma S(X) \le \chi^2(2n-2, 1-\frac \alpha 2)\} = 1 - \alpha 反解这个不等式,我们就可以得到 \sigma 的置信区间为 [\frac{2S(X)}{\chi^2(2n-2, 1- \frac \alpha 2)}, \frac{2S(X)}{\chi^2(2n-2, \frac \alpha 2)}] 。
下面我们来看 \mu 的置信区间,注意到 X_{(1)} - \mu \sim \Gamma(1, \frac n \sigma) ,所以我们可以得到 \frac{2n(X_{(1)} - \mu)}{\sigma} \sim \chi^2(2) 且与 S(X) 独立。但是要注意的是这个变量不能够直接被用来作枢轴量,因为 \sigma 是未知参数之一。所以我们必须要用已有的式子把 \sigma 消掉。这里实际上就是上面我们推出来的 \frac 2 \sigma S(X) 。
你可以看到,如果要消掉,就需要将两个式子相除,那么对应的就是两个卡方分布的比值。这种情况下就会得到一个F分布,并且这个分布的两个参数都不含 \sigma, \mu ,所以是我们要的枢轴量。所以根据F分布的定义,我们就可以得到
P_\mu\{F_{\alpha/2} \le \frac{n(n-1)(X_{(1)} - \mu) }{S(X)} \le F_{1 - \alpha / 2}\} 化简一下把 \mu 求出来就好。这里我们省去了中间步骤,我相信如果你记住了F分布的定义,你可以很轻松的写出中间的比值。
最后就是*联合置信域*了。我们一共提到了两个变量,会分别得到两个区间 C_\mu(\alpha) 和 C_\sigma(\alpha) 。这样的话,可以得到 C_\mu(\alpha/2) \cap C_\sigma(\alpha /2) 就是一个合理的联合置信域(这里简单多说几句,如果一个点既要落在 C_\mu(\alpha / 2) ,又要落在 C_\sigma(\alpha /2) ,那么它的对立事件,就是这个点要不不落在第一个区域,要不不落在第二个区域。这两个“要不”对应的两个事件分别占据了 \alpha /2 的概率,所以这个联合置信域的事件的概率就是 1-\alpha )。
在结束这一节之前,我们留了两个小问题,第一个问题是为什么我们直接在左右两边各分了 \alpha/2 的概率,第二个问题就是上一个题目没有证明的一个小结论。对于第一个问题,事实上枢轴量法是希望得到的区间长度尽可能小的,因为这样子就更加精确。但是区间长度的期望 E[\overline{\theta}(X) - \underline{\theta}(X)] 很多时候并没有特别好求(事实上这是一致最精确置信域关注的内容),所以为了方便采取了等尾置信区间的方案,也就是说,对于一个水平为 1-\alpha 的置信区间 [\underline{\theta}(X), \overline{\theta}(X)] ,我们另加两个要求就是
P_\theta\{\theta \le \underline{\theta}(X)\}= \frac \alpha 2 , P_\theta\{\theta \ge \overline{\theta}(X)\} = \frac \alpha 2 因为我们有分位数这么一个工具,所以在这种情况下,描述置信区间就变得很容易了。
至于第二个小问题,我们把它单独写成一个命题,虽然在本科数理统计中并不作要求,但是它在实际的统计中应用非常广泛。
Proposition 1:
设 X_1, \cdots, X_n 为独立同分布的样本, X_1 \sim \mu + \Gamma(1, \frac1\sigma) ,设 S_1 = \sum_{i=1}^r [X_{(i)} - X_{(1)}] + (n-r)[X_{(r)} - X_{(1)}] = \sum_{i=1}^r X_{(i)} + (n-r)X_{(r)} - nX_{(1)}
S = \sum_{i=1}^n [X_{(i)} - X_{(1)}], T_{n,r} = \sum_{i=1}^r X_{(i)} + (n-r)X_{(r)} \sim \Gamma(r, \frac 1\sigma)
那么会有 X_{(1)} 与 S_1, S 独立,并且
X_{(1)} \sim \mu + \Gamma(1, \frac n \sigma), S_1 \sim \Gamma(r-1, \frac 1 \sigma), S \sim \Gamma( n - 1, \frac1 \sigma), T_{n,r} \sim \Gamma(r, \frac 1 \sigma) 第一眼看上去这个定理会比较眼花缭乱,符号很多,所以我们一步一步来看。
容易看出来, S 就是 S_1 的一种特殊情况,所以我们只需要考虑 S_1 的相关情况。注意到如果我们设 Y_i = X_{(i)} ,那么实际上, S_1 就是 y_1,\cdots,y_r 的一个线性组合。这样的话我们可以考虑先从 f(y_1,\cdots,y_r) 下手证明这个结论。
首先简单说明一下前 r 个次序统计量的联合概率密度函数。它的结果为
f(y_1,\cdots,y_r) = \frac{n!}{(n-r)!} f(y_1) \cdots f(y_r)[1-F(y_r)]^{n-r}I\{y_1 < \cdots < y_r\} 通过排列组合,你会发现实际上就是一个多项分布的概率公式。根据这个结果,我们可以得到
f(y_1,\cdots, y_r) = \frac{n!}{(n-r)!}[\prod_{i=1}^r \frac 1 \sigma e^{-\frac{y_i - \mu}{\sigma}}I\{y_i \ge \mu\}][e^{-\frac{y_r - \mu}{\sigma}}]^{n-r}I\{y_r \ge \mu\}I\{y_1 < \cdots<y_r\}
= \frac{n!}{(n-r)!}\frac1 {\sigma^r} \exp \{-\frac1 \sigma T_{n,r} \} I\{y_1 \ge \mu\}I\{y_1 < \cdots<y_r\} 也是因为这个我们单独列出来了 T_{n,r} 这个统计量。
现在我们来看 S_1 的这个分布怎么证明。其实你看到这个联合概率密度函数,你就应该能感觉到 S_1 一定要是几个更小的伽马分布(这里是指数分布,因为和参数 \alpha = 1 )的和,这也是伽马分布一个非常重要的性质。所以如果我们通过变换,能够找到一串随机变量的和为 S_1 ,并且它们每一个都符合伽马分布,自然就可以解决我们的问题。
那么如何去做呢?虽然这里它已经写成了和式,但是有一个问题就是它多了一个很不规则的 X_{(r)} - X_{(1)} 这一项,所以为了解决它,我们希望能够做这样的一个裂项。
X_{(r)} - X_{(1)} = [X_{(r)} - X_{(r-1)}] + [X_{(r-1)} - X_{(r-2)}] + \cdots + [X_{(2)} - X_{(1)}] 这样的话,每一个项就是 X_{(i)} - X_{(i-1)} 的形式。并且通过这个裂项,你可以写出下面的变换式
\begin{cases} Z_2 = (n-1)(Y_2 - Y_1)\\ Z_3 = (n-2)(Y_3 - Y_2) \\ \cdots\\ Z_r = (n-r+1)(Y_r - Y_{r-1}) \end{cases} 并且满足 Z_2+\cdots+Z_r = S_1 。至于 Z_1 ,你自然会想到,可以写成 Z_1 = n(Y_1 - 0) = nY_1 的形式。
所以我们给出了一个看似合理的变量代换式,下一步自然就是考虑写成 Y_i = f(Z_i) 的形式,然后算出Jacobi行列式的值,根据概率论里的公式得到结果。因为我们容易得出
\begin{cases}Y_1 = \frac{Z_1}{n} \\ Y_2 = \frac{Z_1}{n} + \frac{Z_2}{n-1} \\ \cdots \\ Y_r = \sum_{i=1}^{n} \frac{Z_i}{n+1-i} \end{cases} 所以对应的Jacobi行列式是一个下三角阵,所以只需要将对角线上的值相乘即可,这对应的恰好是 \frac{(n-r)!}{n!} ,所以我们有
f(z_1, \cdots, z_r) = |J|f(y_1,\cdots,y_r)
= \frac1 {\sigma^r} \exp\{-\frac1\sigma (z_1+ \cdots + z_r - n\mu)\} I\{\frac{z_1}{n} \ge \mu\}I\{z_i \ge 0, i = 2, \cdots, r\} 可以看出来这个联合密度函数是可分离变量的。也就是说,独立性已经证明,并且我们可以得到
Z_1 = nY_1 \sim n\mu + \Gamma(1, \frac1 \sigma), Z_i \sim \Gamma(1, \frac1 \sigma)(i = 2, 3, \cdots, n) 这样的话根据可加性即可得到 S_1 和 S 的结论。至于 T_{n,r} ,这是因为 \mu = 0 时,有 T_{n,r} = Z_1 +\cdots + Z_n ,且 Z_1 \sim \Gamma(1, \frac1 \sigma) ,所以根据可加性即可得到结论。
渐近分布下的枢轴量法
前面所涉及到的情况都是精确的情况。但是自然地,也会碰到枢轴量的精确分布不好求的情况。这个时候我们可以考虑渐近分布。所需要使用的定理也是我们在第8节提到过的一些结论(当然了,我们没有提供证明,因为比较复杂)。
首先就是渐近正态枢轴量法。就是说根据 \sqrt{n}(\hat \theta - \theta) \overset{L}{\to} N(0, i^{-1}(\theta)) (第8节的Theorem 6),我们可以得到一个估计为 G(X, \theta) = \sqrt{n}i^{\frac12}(\theta)(\hat \theta- \theta) = I^{\frac12}(\theta)(\hat \theta - \theta) \overset{L}{\to} N(0, I_p) (这里 I(\theta) = ni(\theta) ,一个是所有样本的Fisher信息量,一个是单样本的),还有一种思路就是我们在第9节提到过的,考虑 G_1(X, \theta) = \{Var_\theta(\hat \theta)\}^{-\frac12} (\hat \theta - \theta) ,当然如果设 Var_\theta(\hat \theta) = \Sigma 的话,我们还有 G_2(X,\theta) = \hat \Sigma^{-\frac12} (\hat \theta - \theta) ,它们的渐近分布都是标准正态。那么在这种情况下,如果对应的参数为单维的,就会得到 G_2(X,\theta) = \frac{\hat \theta - \theta}{\hat \sigma} \overset{L}{\to} N(0, 1) ,有没有感觉这个式子比较熟悉?我们在大样本检验的时候就有介绍过类似的结论,只是渐近正态性为他们提供了理论的保障。
在实际的假设检验中,通过等尾置信区间的思想,我们不难得到所得到的置信区间,其实就是 [\hat \theta - \hat \sigma z_{1 -\frac \alpha 2}, \hat \theta + \hat \sigma z_{1 -\frac \alpha 2}] ,其中 z 为标准正态分布。
比方说如果是二项检验,那么对应的 \hat \sigma = \frac{\hat p (1- \hat p)}{n} , \hat \theta = \bar X ,代入式子计算即可。
我们在
中,已经涉及过很多正态检验假设下的区间估计的构造方法,但是有一种情况我们没有提到:一对样本检验的时候, \sigma_1^2,\sigma_2^2 均未知的情况,如何进行检验?事实上,如果两组样本的样本量均很大,那么首先,可以得到
\frac{ (\bar X - \bar Y ) - (\mu_1 - \mu_ 2) }{\sqrt{\frac {\sigma_x^2}{m} + \frac {\sigma_y^2}{n}}} \sim N(0, 1) 那么因为我们有 s_x^2,s_y^2 为相合估计,所以可以根据Slutsky定理,用 s_x^2,s_y^2 去作一个替代,得到一个式子为
\frac{ (\bar X - \bar Y ) - (\mu_1 - \mu_ 2) }{\sqrt{\frac {s_x^2}{m} + \frac {s_y^2}{n}}} \overset{L}{\to} N(0, 1) 在这个时候,你自然可以看到, \mu_1 - \mu_2 的 1-\alpha 的置信区间为 [\bar x - \bar y - u_{1- \frac \alpha 2}\sqrt{\frac{s_x^2}{m} + \frac{s_y^2}{n}}, \bar x - \bar y + u_{1- \frac \alpha 2}\sqrt{\frac{s_x^2}{m} + \frac{s_y^2}{n}}]
最后简单提一下似然置信域,这个东西利用的是我们在第9节介绍过的极大似然估计的渐近性。对应的结论是 LR(\theta_1) = 2\{L(\hat \theta) - L(\theta)\} \overset{L}{\to}\chi^2(p), \forall \theta \in \Theta 不过这个我们用的很少,所以就不多提了。
好的,我们来举个例子吧。
Example 4:
已知如下两组数据
X: 628, 583 ,510, 554, 612, 523, 530, 615
Y: 535, 433, 398, 470,567, 480, 498, 560, 503, 426
设两组数据均服从正态分布,方差相同且未知,求它们的均值差的置信区间, \alpha = 0.05 我们有提过,一对样本检验的情况下,方差相同,未知的时候就可以采取t检验。这个时候,根据公式,计算和查表,会得到
\bar x = 569.38, s_x^2 = 2140.55, \bar y = 487.00, s_y^2 = 3256.22, m = 8, n = 10
s_w = \sqrt{\frac{(m-1)s_x^2 + (n-1)s_y^2}{m+n-2}} = 52.6129, t_{0.975}(16) = 2.1199 然后一顿代入计算即可得到置信区间为 [29.47, 135.29] 。
我们在
中,已经提到过了假设检验和置信区间的关系,理解上来说到那个层次已经完全够用了。事实上还有一个概念是一致最准确置信域,但是它的实用性不强,所依赖的也是我们上一节所略讲的相关内容,所以这里我们也不再细说,感兴趣的可以参考一下韦博成的《参数统计教程》。
容忍区间与容忍限
如果我们不考虑未知参数,而修改为考虑样本的值的范围,那么求解的“置信区间”就变成了容忍区间。严格来说就是下面这个定义。
Definition 3: tolerance interval, w.h.p.
设 X_1, \cdots, X_n 为独立同分布样本, X_1 \sim F_\theta(x_1) ,若 \underline{T}(X), \overline{T}(X) 满足
P_\theta \{[F_\theta(\overline{T}) - F_\theta(\underline{T})] \ge 1 - \beta\} \ge 1 - \gamma
P_\theta \{X_1 \in [\underline{T}, \overline{T}]\} = F_\theta(\overline{T}) - F_\theta(\underline{T})
对充分小的 \gamma 成立,则称 [\overline{T}(X_1,\cdots,X_n), \underline{T}(X_1,\cdots,X_n)] 为一个水平为 (1-\beta, 1- \gamma) 的容忍区间,称 X_1 \in [\underline{T}, \overline{T}] 以很大的概率成立。如果说 P_\theta \{F_\theta(\overline{T}) \ge 1- \beta\} \ge 1 - \gamma , P_\theta\{F_\theta(\underline{T}) \le \beta\} \ge 1 - \gamma
则称 \overline{T}, \underline{T} 为容忍上,下限。对应为 X_1 < \overline{T} 和 X_1 > \underline{T} 以很大的概率成立。 很多使用到统计的文献中会使用一个缩写叫w.h.p.,这是with high probability的意思。
这个定义显然不是直接照搬了置信区间的写法,那么为什么麻烦了一些呢?这是因为, X 的函数依然是一个随机变量(这和 \theta 不一样,目前我们一直都认为真实值是不变的),那么对一个随机变量而言,指望它一定落在一个区间内是不现实的(不然就没异常值什么事了)。所以我们放低了要求,只要求这个事情,也就是 X_1 \in [\underline{T}, \overline{T}] 以概率为1成立。虽然二者并不完全等价,但是已经足够好了。
容忍区间和置信区间的关系非常密切,所以自然的它们也有一些类似的性质。我们没有单独列在置信区间的部分(因为比较显然),但是因为容忍区间分析上多了一层概率的嵌套,所以还是需要提一下。
Proposition 2:
若 \overline{T}(X), \underline{T}(X) 为分布为 F_\theta(x_1) 的水平为 (1-\frac \beta 2, 1 - \frac \gamma 2) 的容忍上下限,那么 [\underline{T}(X), \overline{T}(X)] 为其水平为 (1-\beta, 1 - \gamma) 的容忍区间。 我们证明一下这个结论,先写下所有需要的式子的结果。设 A 表示事件 F_\theta(\underline{T}) \le \frac \beta 2 , B 表示事件 F_\theta(\overline{T}) \ge1- \frac \beta 2 , C 表示事件 F_\theta(\overline{T}) - F_\theta(\underline{T}) \ge 1- \beta 。那么根据容忍区间的定义,我们知道
P_\theta(A) \ge 1 -\frac \gamma 2, P_\theta(B) \ge 1 - \frac \gamma 2 那么这就容易看到 P_\theta(C) \ge P_\theta(AB) (想想为什么?),而根据概率公式,又可以得到 P_\theta(AB) \ge P_\theta(A) + P_\theta(B) - 1 ,代入即可。
这个证明稍稍微不那么显然一点点点,但是还是可以比较容易的根据逻辑推导出来。
下面一个问题就涉及到容忍区间的计算。对应的就是下面这个定理。
Theorem 1:
设 X_1, \cdots, X_n 独立同分布, X_1 \sim F_\theta(x_1) 为连续型分布。那么 \overline T (X) 为水平为 (1-\beta, 1-\gamma) 的容忍上限的充要条件为 \overline{T}(X) 为参数 x_{1-\beta}(\theta) 的水平为 1-\gamma 的置信上限。 \underline{T}(X) 为容忍下限的充要条件为 \underline{T}(X) 为 x_\beta(\theta) 的水平为 1-\gamma 的置信下限。 这里 x_\beta(\theta) 就是分位数的意思。
虽然说写法由Proposition改成了Theorem,但是证明难度其实还行。只需要走定义,因为 P_\theta\{F_\theta(\overline{T}) \ge 1 - \beta\} \ge 1 - \gamma ,那么两边取反函数(当然了,一般这得要求函数严格单增才可以,分位数的定义保证了这个运算的合法,即使分布函数不一定是严格单增),就可以得到
P_\theta \{\overline{T} \ge F_\theta^{-1}(1- \beta)\} \ge 1 - \gamma
P_\theta \{x_{1-\beta}(\theta) \le \overline{T}\} \ge 1 -\gamma 这就是置信区间的定义。至于另外一个对偶的定理,同样走定义就好,这里略去证明。
你可以看出来,要计算容忍区间,其实依然是计算置信区间,但是关注的重点变成了 x_\beta(\theta) 和 x_{1-\beta}(\theta) 。我们用书上的例子来说明具体的步骤。
Example 5:
设 X_1, \cdots, X_n 为独立同分布的样本,且 X_1 \sim \mu + \Gamma(1,1) ,求分布的水平为 (1-\beta,1-\gamma) 的容忍上下限和容忍区间。 根据定理的证明,我们先要关注的就是 x_{1-\beta}(\theta) 和 x_\beta(\theta) 的置信上下限。那么首要的就是关注它们的分布的形式。
由 X_1 \sim \mu + \Gamma(1,1) ,可以得到 2(X_1 - \mu) \sim \chi^2(2) ,就可以根据
P\{2(X_1 - \mu) \le 2(x_\beta - \mu)\} = \beta 得到我们的式子 2(x_\beta - \mu) = \chi^2(2 ,\beta) ,我们可以得到 x_\beta = \mu + \frac12 \chi^2(2, \beta) 。所以事实上,这是一个 \mu 的严增函数,所以 \mu 的置信下限可以推出 x_\beta 的置信下限(想想为什么?)。所以现在的问题就落到了求 \mu 的置信下限上。
要想求 \mu 的置信上下限,之前的这个推导就失效了,因为 X_1 并不是一个统计量(注意统计量是不能够拥有未知性的)。所以我们考察 X_{(1)} 。
这个也是受上面那个性质的影响。注意到 2n (X_{(1)} - \mu) \sim \chi^2(2) ,所以可以得到
P\{2n(X_{(1)} - \mu) \le \chi^2(2, 1 - \gamma)\} = 1 -\gamma 根据这个式子,化简一下可以得到置信下限为 \underline{\mu} = X_{(1)} - \frac1{2n}\chi^2(2, 1 - \gamma) ,将这个式子带入到 x_\beta 的表达式,我们就可以得到容忍下限为 \underline{T}(X) = X_{(1)} - \frac1{2n}\chi^2(2, 1 - \gamma) + \frac12 \chi^2(2, \beta) ,那么运用同样的思路我们也可以得到容忍上限为 \overline{T}(X) = X_{(1)} - \frac1{2n}\chi^2(2, 1- \gamma) + \frac12 \chi^2(2, 1- \beta) 。
到此,我们算是介绍完了所有的区间估计相关的内容。
小结
本节我们关注的是似然比检验和区间估计的内容。当我们学习完假设检验之后,我们就可以发现区间估计与它的密切联系,事实上区间估计的计算也并不复杂,但是在日常生活中的应用不言而喻,比如说2019-nCov的最近的数学模型,预测感染者的数量,也会报告一个95%的置信区间。对于容忍区间,虽然大家相对感到陌生,但是因为这个概念在统计文献中频繁出现,因此也是很重要的统计推断中的相关内容。
下一节我们会把数理统计中最后的方差分析和贝叶斯统计的内容介绍完,我们不会再介绍回归分析,大家去看《回归分析》系列的第一节就好。链接如下:
——————————————————————————————————————
本专栏为我的个人专栏,也是我学习笔记的主要生产地。任何笔记都具有著作权,不可随意转载和剽窃。
个人微信公众号:cha-diary,你可以通过它来获得最新文章更新的通知。
《一个大学生的日常笔记》专栏目录:笔记专栏|目录
《GetDataWet》专栏目录:GetDataWet|目录
想要更多方面的知识分享吗?可以关注专栏:一个大学生的日常笔记。你既可以在那里找到通俗易懂的数学,也可以找到一些杂谈和闲聊。也可以关注专栏:GetDataWet,看看在大数据的世界中,一个人的心路历程。我鼓励和我相似的同志们投稿于此,增加专栏的多元性,让更多相似的求知者受益~
原文地址:https://zhuanlan.zhihu.com/p/102550823 |