TonyYin's Blog

Back

第七章:参数估计。

这是统计推断类问题的一部分,另一部分是假设检验问题。

参数估计的目标是:用样本数据,去估计总体的某个未知参数,常见为:

  • 总体均值 μ\mu,总体方差 σ2\sigma^2,总体比例 pp

点估计

设总体 XX 的分布函数形式已知,但是总体参数未知,要用一个样本来估计参数。

形式化地,设总体参数为 θ\theta,则用样本算出一个统计量 θ^ \hat{\theta} 来估计它。

矩估计

优点:推导简单直观,不依赖复杂的极大似然函数;

缺点:在某些分布下可能效率较低,不如最大似然估计(MLE)稳定。

「步骤」

  1. 设总体的第 kk 阶原点矩为 μk=E[Xk]\mu'_k = E[X^k],这个式子会带有总体中的未知参数。
  2. 样本的第 kk 阶样本矩为: mk=1ni=1nXikm_k = \frac{1}{n} \sum_{i=1}^n X_i^k
  3. 将前 rr 个样本矩 m1,m2,,mrm_1, m_2, \dots, m_r 分别等于总体矩 μ1,μ2,,μr\mu'_1, \mu'_2, \dots, \mu'_r,解方程组得到 rr 个未知参数的估计量 θ^1,,θ^r\hat{\theta}_1, \dots, \hat{\theta}_r
  4. 最后选择合适的估计量。

「举例:指数分布的矩估计」

设总体 XExp(λ)X \sim \text{Exp}(\lambda),我们希望通过样本来估计参数 λ\lambda

步骤如下:

第 1 步:写出总体矩(含参数)

指数分布的一阶原点矩为:

μ1=E[X]=1λ\mu_1' = E[X] = \frac{1}{\lambda}

第 2 步:计算样本矩(来自样本数据)

样本的一阶样本矩即为样本均值:

m1=Xˉ=1ni=1nXim_1 = \bar{X} = \frac{1}{n} \sum_{i=1}^n X_i

第 3 步:令样本矩 = 总体矩,解出参数估计量

Xˉ=1λ\bar{X} = \frac{1}{\lambda},可得:

λ^MM=1Xˉ\hat{\lambda}_{\text{MM}} = \frac{1}{\bar{X}}

设总体 XX[a,b][a,b] 上服从均匀分布,a,ba,b 未知,X1,X2,,XnX_1, X_2, \cdots,X_n 是来自 XX 的样本,求 a,ba, b 的矩估计量。

原点矩:

μ1=E[X]=a+b2\mu_1' = E[X] = \frac{a + b}{2} μ2=E[X2]=D(X)+[E(X)]2=(ba)212+(a+b)24\mu_2' = E[X^2] = D(X)+[E(X)]^2=\frac{(b-a)^2}{12}+\frac{(a+b)^2}{4}

样本矩:

A1=Xˉ=1ni=1nXiA_1 = \bar{X} = \frac{1}{n} \sum_{i=1}^n X_i A2=1ni=1nXi2A_2 = \frac{1}{n} \sum_{i=1}^n X_i^2

联立等式:

{a+b2=Xˉa2+ab+b23=A2\begin{cases} \frac{a + b}{2} = \bar{X} \\ \frac{a^2 + ab + b^2}{3} = A_2 \end{cases}

整理得到最终结果:

a^=Xˉ3(A2Xˉ2)b^=Xˉ+3(A2Xˉ2)\hat{a} = \bar{X} - \sqrt{3(A_2 - \bar{X}^2)} \\ \hat{b} = \bar{X} + \sqrt{3(A_2 - \bar{X}^2)}

极大似然估计

矩估计法求得的参数,是使得样本矩等于总体矩的参数

作为对比,极大似然估计,是要找到一组参数,使得在该参数下,此样本数据出现的概率最大

「基本思想」

是一种通过最大化样本数据在给定参数下的“出现概率”来估计参数的方法。

核心思想:哪个参数最可能让“我看到的样本”出现?

「步骤」

设样本 X1,X2,,XnX_1, X_2, \dots, X_n 独立同分布,密度函数为 f(x;θ)f(x;\theta),其中 θ\theta 为未知参数:

  1. 写出似然函数

    L(θ)=i=1nf(Xi;θ)L(\theta) = \prod_{i=1}^n f(X_i; \theta)
  2. 通常取对数化简,得到对数似然函数

    (θ)=logL(θ)=i=1nlogf(Xi;θ)\ell(\theta) = \log L(\theta) = \sum_{i=1}^n \log f(X_i; \theta)
  3. (θ)\ell(\theta)θ\theta 求导,解方程 (θ)=0\ell'(\theta) = 0,得到最大似然估计值 θ^MLE\hat{\theta}_{\text{MLE}}

  4. 检查导数符号或二阶导数,验证是否为极大值。

如果有多个参数,就改成分别求偏导,解对数似然方程组

「特点」

  • 适用范围广,尤其适合已知分布形式但参数未知的情形;
  • 在样本量足够大时具有良好的统计性质(如一致性、渐近正态性、渐近有效性);
  • 往往比矩估计更有效,但求解过程需要更多微积分技巧。

「例题」

设总体的概率密度 f(x)=1θexμθ,  x>μf(x)=\frac{1}{\theta}e^{-\frac{x-\mu}{\theta}},\; x>\mu,其中 μ\muθ\theta 均未知,求其最大似然估计。

解答:

记样本为 X1,X2,,XnX_1, X_2, \dots, X_n,由于样本独立,写出似然函数:

L(μ,θ)=i=1n1θeXiμθI(Xi>μ)=1θne1θ(Xiμ)I(μ<X(1))L(\mu, \theta) = \prod_{i=1}^n \frac{1}{\theta} e^{-\frac{X_i - \mu}{\theta}} \cdot I(X_i > \mu) = \frac{1}{\theta^n} e^{-\frac{1}{\theta} \sum (X_i - \mu)} \cdot I(\mu < X_{(1)})

其中 X(1)=min(X1,,Xn)X_{(1)} = \min(X_1, \dots, X_n)

对数似然函数为:

(μ,θ)=nlogθ1θ(Xiμ),μ<X(1)\ell(\mu, \theta) = -n \log \theta - \frac{1}{\theta} \sum (X_i - \mu), \quad \mu < X_{(1)}

μ\mu 求偏导:

μ=nθ<0\frac{\partial \ell}{\partial \mu} = -\frac{n}{\theta}<0

是单调递减函数,所以 \ellμ<X(1)\mu < X_{(1)} 区间上最大值取得于 μ=X(1)\mu = X_{(1)}

固定 μ=X(1)\mu = X_{(1)},再对 θ\theta 求偏导:

(θ)=nlogθ1θ(XiX(1))\ell(\theta) = -n \log \theta - \frac{1}{\theta} \sum (X_i - X_{(1)})

求导并令其为 0:

ddθ=nθ+1θ2(XiX(1))=0\frac{d\ell}{d\theta} = -\frac{n}{\theta} + \frac{1}{\theta^2} \sum (X_i - X_{(1)}) = 0

解得:

θ^=1n(XiX(1))\hat{\theta} = \frac{1}{n} \sum (X_i - X_{(1)})

最终结果:

μ^=X(1),θ^=1ni=1n(XiX(1))\hat{\mu} = X_{(1)}, \quad \hat{\theta} = \frac{1}{n} \sum_{i=1}^n (X_i - X_{(1)})

估计量的评价

「无偏性」

  • 估计量 θ^\hat{\theta} 的期望值等于参数 θ\theta,即 E(θ^)=θE(\hat{\theta}) = \theta
  • 样本方差用 1n1\frac{1}{n-1} 是无偏的,而用 1n\frac{1}{n} 则是有偏的。

「一致性」

  • 当样本容量 nn \to \infty 时,估计量 θ^\hat{\theta} 收敛到参数 θ\theta

「有效性」

  • 估计量 θ^\hat{\theta}方差最小,即在所有无偏估计量中,θ^\hat{\theta} 的方差最小。

区间估计

在统计推断中,我们常常不仅想得到总体参数的一个点估计,还希望给出一个区间,这个区间能以某种置信程度覆盖真实的参数值,这被称为区间估计(Interval Estimation)。

「置信区间」

区间估计的结果称为置信区间,表示在重复抽样中有一定比例的此类区间能包含真实参数值。

总体 XX 有一个参数 θ\theta,样本 X1,X2,,XnX_1,X_2,\cdots,X_n,满足:

P{θ(X1,X2,,Xn)<θ<θ(X1,X2,,Xn)}1αP\{\underline{\theta}(X_1,X_2,\cdots,X_n)<\theta<\overline{\theta}(X_1,X_2,\cdots,X_n)\}\geq 1-\alpha

则随机区间 (θ,θ)(\underline{\theta}, \overline{\theta}) 称为 θ\theta1α1-\alpha 置信区间,上面的大于等于一般只看等号就行了。

定义 (θ,θ)(\underline{\theta}, \overline{\theta})置信区间1α1-\alpha置信水平θ\underline\theta置信下限θ\overline\theta置信上限

**置信区间的含义:**每一次试验得到 x1,x2,,xnx_1,x_2,\cdots,x_n,对应一个置信区间。反复抽样多次,在这么多次试验中,有 1α1-\alpha 的比例的置信区间包含了真实的参数 θ\theta

「举例:正态总体 μ\mu 的置信区间」

XN(μ,σ2)X \sim N(\mu, \sigma^2),样本均值为 Xˉ\bar{X},方差 σ2\sigma^2 已知,求 μ\mu 的置信度为 1α1-\alpha 的置信区间。

由题设,根据中心极限定理,样本均值 Xˉ\bar{X} 的分布为:

Xˉμσ/nN(0,1)\frac{\bar X-\mu}{\sigma/\sqrt{n}}\sim N(0,1) P{zα/2<Xˉμσ/n<zα/2}=1α\Rightarrow P\left\{-z_{\alpha/2} < \frac{\bar X - \mu}{\sigma/\sqrt{n}} < z_{\alpha/2}\right\} = 1 - \alpha P{Xˉzα/2σn<μ<Xˉ+zα/2σn}=1α\Rightarrow P\left\{\bar X - z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} < \mu < \bar X + z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}\right\} = 1 - \alpha

进而可得:

μ[Xˉzα/2σn, Xˉ+zα/2σn]\mu \in \left[ \bar{X} - z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}},\ \bar{X} + z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} \right]

其中,z±α/2z_{\pm \alpha/2} 代表标准正态分布的分位点,需要查表,但已知。

所以这个区间是仅取决于样本均值 Xˉ\bar{X} 和已知的总体方差 σ2\sigma^2 的。

「枢轴量」

一个统计量,不依赖于未知参数。用于构造置信区间。

正态总体的区间估计

待估参数条件枢轴量双侧 1α1-\alpha 置信区间公式
μ\muσ2\sigma^2 已知Z=Xˉμσ/nN(0,1)\displaystyle Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0,1)[Xˉ±zα/2σn]\displaystyle \left[ \bar{X} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} \right]
μ\muσ2\sigma^2 未知T=XˉμS/nt(n1)\displaystyle T = \frac{\bar{X} - \mu}{S/\sqrt{n}} \sim t(n-1)[Xˉ±tα/2(n1)sn]\displaystyle \left[ \bar{X} \pm t_{\alpha/2}(n-1) \cdot \frac{s}{\sqrt{n}} \right]
σ2\sigma^2μ\mu 已知1σ2i=1n(Xiμ)2χ2(n)\displaystyle \frac{1}{\sigma^2}\sum_{i=1}^n(X_i-\mu)^2 \sim \chi^2(n)[i=1n(Xiμ)2χα/22(n), i=1n(Xiμ)2χ1α/22(n)]\displaystyle \left[ \frac{\sum\limits_{i=1}^n(X_i-\mu)^2}{\chi^2_{\alpha/2}(n)},\ \frac{\sum\limits_{i=1}^n(X_i-\mu)^2}{\chi^2_{1-\alpha/2}(n)} \right]
σ2\sigma^2μ\mu 未知(n1)S2σ2=1σ2i=1n(XiXˉ)2χ2(n1)\displaystyle \frac{(n-1)S^2}{\sigma^2} =\frac{1}{\sigma^2}\sum_{i=1}^n(X_i-\bar X)^2\sim \chi^2(n-1)[(n1)S2χα/22(n1),(n1)S2χ1α/22(n1)]\displaystyle \left[ \frac{(n-1)S^2}{\chi^2_{\alpha/2}(n-1)},\frac{(n-1)S^2}{\chi^2_{1-\alpha/2}(n-1)} \right]

其中 S2S^2 是样本方差 1n1i=1n(XiXˉ)2\frac{1}{n-1}\sum\limits_{i=1}^n(X_i-\bar X)^2tα/2(n1)t_{\alpha/2}(n-1)tt 分布的分位点,χα/22(n)\chi^2_{\alpha/2}(n)χ2\chi^2 分布的分位点。

有些题给定误差,求解样本量 nn,比如 [Xˉ±zα/2σn]\displaystyle \left[ \bar{X} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} \right] 中,误差zα/2σnz_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}.

参数估计
https://www.tonyyin0418.com/blog/probability/chap-7
Author TonyYin
Published at May 27, 2025
Comment seems to stuck. Try to refresh?✨