第六章:样本及抽样分布
之前一直是概率论的基本内容,本章开始讨论数理统计。
在数理统计中,随机变量是未知的,或者是不完全知道的。
随机样本
「总体」
对于一个随机试验,其所有可能的观察值称为总体,每一个可能的观察值称为个体。
总体分为有限总体和无限总体,根据容量是否有限来划分。
一个总体对应着一个随机变量 X,所以对总体的研究就是对随机变量 X 的研究,统称为总体 X。
「样本」
总体的分布一般是未知的,只知道抽取出的一部分个体的分布,这部分个体称为样本。
样本也有容量,记为 n,样本容量 n 的样本为 X1,X2,…,Xn 是随机变量,**样本值(观察值)**为 x1,x2⋯,xn.
样本是从总体中抽取出来的个体的集合,一般是 简单随机样本,用放回抽样的方法得到。当 N>>n 时,不放回抽样也可以近似看作是放回抽样。
「定义」
把样本看成随机向量 (X1,X2,⋯,Xn),样本值 (x1,x2,⋯,xn),则
(X1,X2,⋯,Xn) 的分布函数为:
F∗(x1,x2⋯,xn)=i=1∏nF(xi)
概率密度为:
f∗(x1,x2⋯,xn)=i=1∏nf(xi)
直方图和箱线图
「直方图」
- 横轴 = 数据区间。
- 纵轴 = 落入该区间的数据个数或比例。
「箱线图」
样本分位数:设有容量为 n 的样本观察值 x1,x2,⋯,xn,样本 p 分位数 0<p<1 记为 xp,则:
- 至少有 np 个观察值小于或等于 xp,
- 至少有 n(1−p) 个观察值大于或等于 xp.
画箱线图要关注以下五个数值:
最小值 Min,第一四分位数 Q1,中位数 M,第三四分位数 Q3,最大值 Max。
箱线图的绘制步骤:
- 计算样本的五个数值 Min,Q1,M,Q3,Max.
- 在横轴上标出这五个数值。
- 在横轴上画出一个矩形,矩形的左边界为 Q1,右边界为 Q3,矩形的中间线为 M。
- 在矩形的左边画一条线段,连接 Min 和 Q1,在矩形的右边画一条线段,连接 Q3 和 Max。
可以反应以下性质:
- 中心位置
- 散布程度:通过 Q1 和 Q3 的距离(四分位距)来衡量。
- 对称性
对于离群点的量化判断:
- 如果 x<Q1−1.5×IQR 或 x>Q3+1.5×IQR,则认为 x 是离群点
- 其中 IQR=Q3−Q1,是 Interquartile Range,四分位距。
经验分布函数
经验分布函数就是你根据样本数据本身,去估计总体分布函数的一种方法。
其定义为:Fn(x) 表示小于等于 x 的观察值所占的比率。
即:
Fn(x)=n(x1,x2,⋯,xn) 中小于等于 x 的个数
呈现出来的就是一个,每次跃升的高度为 n1 的阶梯函数。
当 n→+∞ 时,Fn(x) 可以当做 F(x) 来使用,这是格里汶科定理。
样本统计量
统计量: g(X1,X2⋯,Xn) 是样本 (X1,X2⋯,Xn) 的函数,不含任何未知参数。
统计值:g(x1,x2,⋯,xn) 是 g(X1,X2,⋯,Xn) 的观测值。
思路是要模仿总体中的统计量,
「样本均值」
Xˉ=n1i=1∑nXi
「样本方差」
S2=n−11i=1∑n(Xi−Xˉ)2=n−11(i=1∑nXi2−nXˉ2)
除以 n−1 这是为了保证样本方差的无偏性,需要记住。中间是定义式,展开即可右侧,是计算中常用的形式。
「样本标准差」
S=S2=n−11i=1∑n(Xi−Xˉ)2
「样本 k 阶原点矩」
Ak=n1i=1∑nXik
「样本 k 阶中心矩」
Bk=n1i=1∑n(Xi−Xˉ)k
对应的总体概念,总体 k 阶原点矩:E[Xk],总体 k 阶中心矩:E[(X−EX)k]
统计量的数字特征
设总体 X 无论服从什么分布,满足期望 EX=μ 和方差 DX=σ2,则:
E(Xi)=μ,D(Xi)=σ2
这是很容易得到的。进而有三个重要公式:
E(Xˉ)=μ,D(Xˉ)=nσ2,E(S2)=σ2
E(Xˉ)=E(n1i=1∑nXi)=n1i=1∑nEXi=μ
D(Xˉ)=D(n1i=1∑nXi)=n21i=1∑nEXi=nσ2
E(S2)=E[n−11(i=1∑nXi2−nXˉ2)]=n−11(i=1∑nE(Xi2)−nE(Xˉ2))
⇒=E(S2)=n−11[n(μ2+σ2)−n(μ2+nσ2)]=σ2
利用这三个公式,可以做很多变形,从而解题。
抽样分布
下面介绍正态总体的三大抽样分布。抽样分布就是统计量的分布。
卡方分布
由正态分布扩展而来,正态分布的平方和服从卡方分布。
设 X1,X2,⋯,Xn 来自总体 N(0,1) 且相互独立,则随机变量
χ2=X12+X22+⋯+Xn2,Xi∼N(0,1)
服从自由度为 n 的卡方分布,记为 χ2∼χ2(n)。
自由度越高,分布越接近正态分布。
这里并不重要。卡方分布的概率密度公式为
f(y)=⎩⎨⎧2n/2Γ(n/2)1yn/2−1e−y/2,0,y>0Otherwise
其中 Γ 是一种分布函数。
「可加性」
设 χ12=χ2(n1),χ22=χ2(n2) ,且 χ12 和 χ22 相互独立,则:
χ12+χ22=χ2(n1+n2)
「期望和方差」
E(χn2)=n,D(χn2)=2n
「分位点」
设分布函数 F(x),若有:
P{X>xα}=α
则称 xα 是 F(x) 的上 α 分位点。
也就是说,xα 是一个横坐标,纵坐标是概率密度,右侧的面积是概率,概率等于 α.
t 分布
设 X∼N(0,1),Y∼χ2(n),且 X,Y 独立,则:
t=Y/nX∼t(n)
服从自由度为 n 的 t 分布。
当 n→∞ 时,t 分布近似于 N(0,1).
「分位点」
概率密度是偶函数,所以分位点有:t1−α(n)=−tα(n).
F 分布
设 X∼χ2(n1),Y∼χ2(n2),且 X,Y 独立,则:
F=Y/n2X/n1∼F(n1,n2)
服从自由度为 (n1,n2) 的 F 分布。
「与 t 分布的关系」
X∼t(n)⇒X2∼F(1,n)
这是因为:X=V/nU⇒X2=V/nU2/1
「分位点」
F1−α(n1,n2)=Fα(n2,n1)1
特征总结
- χ2(n):平方和;
- t(n):正态 / 根号下平方和,或分母有绝对值。
- F(n1,n2):平方和 / 平方和。
例题
设 X1,X2,⋯,X5 为总体 X∼N(0,1) 的一个样本,设 Y=(X1+X2+X3)2+(X4−2X5)2 且 cY 服从 χ2 分布,求系数 c 的值.
把每个被平方的项,化为标准正态分布。
X1+X2+X3∼N(0,3),标准化,则有:
A=3X1+X2+X3−0∼N(0,1)
X4−2X5∈N(0,3),标准化,则有:
B=3X4−2X5−0∼N(0,1)
另外 A,B 显然独立,故 A2+B2=31Y∼χ2(2),c=31.
正态总体抽样分布
-
σ/n(Xˉ−μ)∼N(0,1)
-
样本均值 Xˉ 和样本方差 S2 相互独立
σ2(n−1)S2=σ2i=1∑n(Xi−Xˉ)2∼χ2(n−1)
σ2i=1∑n(Xi−μ)2∼χ2(n)
- T=S/nXˉ−μ∼t(n−1)