第七章:参数估计。
这是统计推断类问题的一部分,另一部分是假设检验问题。
参数估计的目标是:用样本数据,去估计总体的某个未知参数,常见为:
- 总体均值 μ,总体方差 σ2,总体比例 p
点估计
设总体 X 的分布函数形式已知,但是总体参数未知,要用一个样本来估计参数。
形式化地,设总体参数为 θ,则用样本算出一个统计量 θ^ 来估计它。
矩估计
优点:推导简单直观,不依赖复杂的极大似然函数;
缺点:在某些分布下可能效率较低,不如最大似然估计(MLE)稳定。
「步骤」
- 设总体的第 k 阶原点矩为 μk′=E[Xk],这个式子会带有总体中的未知参数。
- 样本的第 k 阶样本矩为:
mk=n1i=1∑nXik
- 将前 r 个样本矩 m1,m2,…,mr 分别等于总体矩 μ1′,μ2′,…,μr′,解方程组得到 r 个未知参数的估计量 θ^1,…,θ^r。
- 最后选择合适的估计量。
「举例:指数分布的矩估计」
设总体 X∼Exp(λ),我们希望通过样本来估计参数 λ。
步骤如下:
第 1 步:写出总体矩(含参数)
指数分布的一阶原点矩为:
μ1′=E[X]=λ1
第 2 步:计算样本矩(来自样本数据)
样本的一阶样本矩即为样本均值:
m1=Xˉ=n1i=1∑nXi
第 3 步:令样本矩 = 总体矩,解出参数估计量
令 Xˉ=λ1,可得:
λ^MM=Xˉ1
设总体 X 在 [a,b] 上服从均匀分布,a,b 未知,X1,X2,⋯,Xn 是来自 X 的样本,求 a,b 的矩估计量。
原点矩:
μ1′=E[X]=2a+b
μ2′=E[X2]=D(X)+[E(X)]2=12(b−a)2+4(a+b)2
样本矩:
A1=Xˉ=n1i=1∑nXi
A2=n1i=1∑nXi2
联立等式:
{2a+b=Xˉ3a2+ab+b2=A2
整理得到最终结果:
a^=Xˉ−3(A2−Xˉ2)b^=Xˉ+3(A2−Xˉ2)
极大似然估计
矩估计法求得的参数,是使得样本矩等于总体矩的参数。
作为对比,极大似然估计,是要找到一组参数,使得在该参数下,此样本数据出现的概率最大。
「基本思想」
是一种通过最大化样本数据在给定参数下的“出现概率”来估计参数的方法。
核心思想:哪个参数最可能让“我看到的样本”出现?
「步骤」
设样本 X1,X2,…,Xn 独立同分布,密度函数为 f(x;θ),其中 θ 为未知参数:
-
写出似然函数:
L(θ)=i=1∏nf(Xi;θ)
-
通常取对数化简,得到对数似然函数:
ℓ(θ)=logL(θ)=i=1∑nlogf(Xi;θ)
-
对 ℓ(θ) 对 θ 求导,解方程 ℓ′(θ)=0,得到最大似然估计值 θ^MLE。
-
检查导数符号或二阶导数,验证是否为极大值。
如果有多个参数,就改成分别求偏导,解对数似然方程组。
「特点」
- 适用范围广,尤其适合已知分布形式但参数未知的情形;
- 在样本量足够大时具有良好的统计性质(如一致性、渐近正态性、渐近有效性);
- 往往比矩估计更有效,但求解过程需要更多微积分技巧。
「例题」
设总体的概率密度 f(x)=θ1e−θx−μ,x>μ,其中 μ 和 θ 均未知,求其最大似然估计。
解答:
记样本为 X1,X2,…,Xn,由于样本独立,写出似然函数:
L(μ,θ)=i=1∏nθ1e−θXi−μ⋅I(Xi>μ)=θn1e−θ1∑(Xi−μ)⋅I(μ<X(1))
其中 X(1)=min(X1,…,Xn)。
对数似然函数为:
ℓ(μ,θ)=−nlogθ−θ1∑(Xi−μ),μ<X(1)
对 μ 求偏导:
∂μ∂ℓ=−θn<0
是单调递减函数,所以 ℓ 在 μ<X(1) 区间上最大值取得于 μ=X(1)
固定 μ=X(1),再对 θ 求偏导:
ℓ(θ)=−nlogθ−θ1∑(Xi−X(1))
求导并令其为 0:
dθdℓ=−θn+θ21∑(Xi−X(1))=0
解得:
θ^=n1∑(Xi−X(1))
最终结果:
μ^=X(1),θ^=n1i=1∑n(Xi−X(1))
估计量的评价
「无偏性」
- 估计量 θ^ 的期望值等于参数 θ,即 E(θ^)=θ。
- 样本方差用 n−11 是无偏的,而用 n1 则是有偏的。
「一致性」
- 当样本容量 n→∞ 时,估计量 θ^ 收敛到参数 θ。
「有效性」
- 估计量 θ^ 的方差最小,即在所有无偏估计量中,θ^ 的方差最小。
区间估计
在统计推断中,我们常常不仅想得到总体参数的一个点估计,还希望给出一个区间,这个区间能以某种置信程度覆盖真实的参数值,这被称为区间估计(Interval Estimation)。
「置信区间」
区间估计的结果称为置信区间,表示在重复抽样中有一定比例的此类区间能包含真实参数值。
总体 X 有一个参数 θ,样本 X1,X2,⋯,Xn,满足:
P{θ(X1,X2,⋯,Xn)<θ<θ(X1,X2,⋯,Xn)}≥1−α
则随机区间 (θ,θ) 称为 θ 的 1−α 置信区间,上面的大于等于一般只看等号就行了。
定义 (θ,θ) 是置信区间,1−α 是置信水平,θ 是置信下限,θ 是置信上限。
**置信区间的含义:**每一次试验得到 x1,x2,⋯,xn,对应一个置信区间。反复抽样多次,在这么多次试验中,有 1−α 的比例的置信区间包含了真实的参数 θ。
「举例:正态总体 μ 的置信区间」
设 X∼N(μ,σ2),样本均值为 Xˉ,方差 σ2 已知,求 μ 的置信度为 1−α 的置信区间。
由题设,根据中心极限定理,样本均值 Xˉ 的分布为:
σ/nXˉ−μ∼N(0,1)
⇒P{−zα/2<σ/nXˉ−μ<zα/2}=1−α
⇒P{Xˉ−zα/2⋅nσ<μ<Xˉ+zα/2⋅nσ}=1−α
进而可得:
μ∈[Xˉ−zα/2⋅nσ, Xˉ+zα/2⋅nσ]
其中,z±α/2 代表标准正态分布的分位点,需要查表,但已知。
所以这个区间是仅取决于样本均值 Xˉ 和已知的总体方差 σ2 的。
「枢轴量」
一个统计量,不依赖于未知参数。用于构造置信区间。
正态总体的区间估计
待估参数 | 条件 | 枢轴量 | 双侧 1−α 置信区间公式 |
---|
μ | σ2 已知 | Z=σ/nXˉ−μ∼N(0,1) | [Xˉ±zα/2⋅nσ] |
μ | σ2 未知 | T=S/nXˉ−μ∼t(n−1) | [Xˉ±tα/2(n−1)⋅ns] |
σ2 | μ 已知 | σ21i=1∑n(Xi−μ)2∼χ2(n) | χα/22(n)i=1∑n(Xi−μ)2, χ1−α/22(n)i=1∑n(Xi−μ)2 |
σ2 | μ 未知 | σ2(n−1)S2=σ21i=1∑n(Xi−Xˉ)2∼χ2(n−1) | [χα/22(n−1)(n−1)S2,χ1−α/22(n−1)(n−1)S2] |
其中 S2 是样本方差 n−11i=1∑n(Xi−Xˉ)2,tα/2(n−1) 是 t 分布的分位点,χα/22(n) 是 χ2 分布的分位点。
有些题给定误差,求解样本量 n,比如 [Xˉ±zα/2⋅nσ] 中,误差是 zα/2⋅nσ.