TonyYin's Blog

Back

第六章:样本及抽样分布

之前一直是概率论的基本内容,本章开始讨论数理统计。

在数理统计中,随机变量是未知的,或者是不完全知道的。

随机样本

「总体」

对于一个随机试验,其所有可能的观察值称为总体,每一个可能的观察值称为个体

总体分为有限总体无限总体,根据容量是否有限来划分。

一个总体对应着一个随机变量 XX,所以对总体的研究就是对随机变量 XX 的研究,统称为总体 XX

「样本」

总体的分布一般是未知的,只知道抽取出的一部分个体的分布,这部分个体称为样本

样本也有容量,记为 nn,样本容量 nn样本X1,X2,,XnX_1, X_2, \ldots, X_n 是随机变量,**样本值(观察值)**为 x1,x2,xnx_1,x_2\cdots,x_n.

样本是从总体中抽取出来的个体的集合,一般是 简单随机样本,用放回抽样的方法得到。当 N>>nN>>n 时,不放回抽样也可以近似看作是放回抽样。

「定义」

把样本看成随机向量 (X1,X2,,Xn)(X1,X2,\cdots,X_n),样本值 (x1,x2,,xn)(x_1, x_2,\cdots,x_n),则

(X1,X2,,Xn)(X_1, X_2,\cdots,X_n) 的分布函数为:

F(x1,x2,xn)=i=1nF(xi)F^{*}(x_1, x_2\cdots, x_n)=\prod_{i=1}^nF(x_i)

概率密度为:

f(x1,x2,xn)=i=1nf(xi)f^{*}(x_1, x_2\cdots, x_n)=\prod_{i=1}^nf(x_i)

直方图和箱线图

「直方图」

  • 横轴 = 数据区间。
  • 纵轴 = 落入该区间的数据个数或比例。

「箱线图」

样本分位数:设有容量为 nn 的样本观察值 x1,x2,,xnx1,x2,\cdots,x_n,样本 pp 分位数 0<p<10<p<1 记为 xpx_p,则:

  • 至少有 npnp 个观察值小于或等于 xpx_p
  • 至少有 n(1p)n(1-p) 个观察值大于或等于 xpx_p.

画箱线图要关注以下五个数值:

最小值 Min\text{Min},第一四分位数 Q1Q_1,中位数 MM,第三四分位数 Q3Q_3,最大值 Max\text{Max}

箱线图的绘制步骤:

  • 计算样本的五个数值 Min,Q1,M,Q3,Max\text{Min}, Q_1, M, Q_3, \text{Max}.
  • 在横轴上标出这五个数值。
  • 在横轴上画出一个矩形,矩形的左边界为 Q1Q_1,右边界为 Q3Q_3,矩形的中间线为 MM
  • 在矩形的左边画一条线段,连接 Min\text{Min}Q1Q_1,在矩形的右边画一条线段,连接 Q3Q_3Max\text{Max}

可以反应以下性质:

  • 中心位置
  • 散布程度:通过 Q1Q_1Q3Q_3 的距离(四分位距)来衡量。
  • 对称性

对于离群点的量化判断:

  • 如果 x<Q11.5×IQRx < Q_1 - 1.5 \times IQRx>Q3+1.5×IQRx > Q_3 + 1.5 \times IQR,则认为 xx 是离群点
  • 其中 IQR=Q3Q1IQR = Q_3 - Q_1,是 Interquartile Range,四分位距。

经验分布函数

经验分布函数就是你根据样本数据本身,去估计总体分布函数的一种方法。

其定义为:Fn(x)F_n(x) 表示小于等于 xx 的观察值所占的比率。

即:

Fn(x)=(x1,x2,,xn) 中小于等于 x 的个数nF_n(x)=\frac{(x_1,x_2,\cdots,x_n)\text{ 中小于等于 }x\text{ 的个数} }{n}

呈现出来的就是一个,每次跃升的高度为 1n\frac{1}{n} 的阶梯函数。

n+n\to +\infty 时,Fn(x)F_n(x) 可以当做 F(x)F(x) 来使用,这是格里汶科定理

样本统计量

统计量: g(X1,X2,Xn)g(X_1,X_2\cdots,X_n) 是样本 (X1,X2,Xn)(X_1,X_2\cdots,X_n)函数,不含任何未知参数。

统计值:g(x1,x2,,xn)g(x_1,x_2,\cdots,x_n)g(X1,X2,,Xn)g(X_1,X_2,\cdots,X_n) 的观测值。

思路是要模仿总体中的统计量,

「样本均值」

Xˉ=1ni=1nXi\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i

「样本方差」

S2=1n1i=1n(XiXˉ)2=1n1(i=1nXi2nXˉ2)S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2=\frac{1}{n-1}(\sum_{i=1}^nX_i^2-n\bar X^2)

除以 n1n-1 这是为了保证样本方差的无偏性,需要记住。中间是定义式,展开即可右侧,是计算中常用的形式

「样本标准差」

S=S2=1n1i=1n(XiXˉ)2S = \sqrt{S^2} = \sqrt{\frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2}

「样本 kk 阶原点矩」

Ak=1ni=1nXikA_k = \frac{1}{n}\sum_{i=1}^n X_i^k

「样本 kk 阶中心矩」

Bk=1ni=1n(XiXˉ)kB_k = \frac{1}{n}\sum_{i=1}^n (X_i - \bar{X})^k

对应的总体概念,总体 kk 阶原点矩:E[Xk]E[X^k],总体 kk 阶中心矩:E[(XEX)k]E[(X-EX)^k]


统计量的数字特征

设总体 XX 无论服从什么分布,满足期望 EX=μEX=\mu 和方差 DX=σ2DX=\sigma^2,则:

E(Xi)=μ,D(Xi)=σ2E(X_i)=\mu,\quad D(X_i)=\sigma^2

这是很容易得到的。进而有三个重要公式

E(Xˉ)=μ,D(Xˉ)=σ2n,E(S2)=σ2\color{red}{E(\bar X)=\mu,\quad D(\bar X)=\frac{\sigma ^2}{n},\quad E(S^2)=\sigma^2}
E(Xˉ)=E(1ni=1nXi)=1ni=1nEXi=μE(\bar X)=E(\frac{1}{n}\sum_{i=1}^nX_i)=\frac{1}{n}\sum_{i=1}^nEX_i=\mu D(Xˉ)=D(1ni=1nXi)=1n2i=1nEXi=σ2nD(\bar X)=D(\frac{1}{n}\sum_{i=1}^nX_i)=\frac{1}{n^2}\sum_{i=1}^nEX_i=\frac{\sigma^2}{n} E(S2)=E[1n1(i=1nXi2nXˉ2)]=1n1(i=1nE(Xi2)nE(Xˉ2))E(S^2)=E\left[\frac{1}{n-1}(\sum_{i=1}^nX_i^2-n\bar X^2)\right]=\frac{1}{n-1}\left(\sum_{i=1}^nE(X_i^2)-nE(\bar X^2)\right) =E(S2)=1n1[n(μ2+σ2)n(μ2+σ2n)]=σ2\Rightarrow=E(S^2)=\frac{1}{n-1}\left[n(\mu^2+\sigma^2)-n(\mu^2+\frac{\sigma^2}{n})\right]=\sigma^2

利用这三个公式,可以做很多变形,从而解题。


抽样分布

下面介绍正态总体的三大抽样分布。抽样分布就是统计量的分布

卡方分布

由正态分布扩展而来,正态分布的平方和服从卡方分布。

X1,X2,,XnX_1,X_2,\cdots,X_n 来自总体 N(0,1)N(0,1) 且相互独立,则随机变量

χ2=X12+X22++Xn2,XiN(0,1)\chi^2=X_1^2+X_2^2+\cdots+X_n^2,\quad X_i\sim N(0,1)

服从自由度nn 的卡方分布,记为 χ2χ2(n)\chi^2\sim \chi^2(n)

自由度越高,分布越接近正态分布

这里并不重要。卡方分布的概率密度公式为

f(y)={12n/2Γ(n/2)yn/21ey/2,y>00,Otherwisef(y)=\left\{ \begin{array}{} \dfrac{1}{2^{n/2}\Gamma(n/2)}y^{n/2-1}e^{-y/2}, &y>0\\ 0, &\text{Otherwise} \end{array} \right.

其中 Γ\Gamma 是一种分布函数。 「可加性」

χ12=χ2(n1)\chi^2_1=\chi^2(n_1)χ22=χ2(n2)\chi_2^2=\chi^2(n_2) ,且 χ12\chi_1^2χ22\chi_2^2 相互独立,则:

χ12+χ22=χ2(n1+n2)\chi_1^2+\chi_2^2=\chi^2(n1+n2)

「期望和方差」

E(χn2)=n,D(χn2)=2nE(\chi^2_n)=n,\quad D(\chi^2_n)=2n

「分位点」

设分布函数 F(x)F(x),若有:

P{X>xα}=αP\{X>x_\alpha\}=\alpha

则称 xαx_\alphaF(x)F(x) 的上 α\alpha 分位点。

也就是说,xαx_\alpha 是一个横坐标,纵坐标是概率密度,右侧的面积是概率,概率等于 α\alpha.

t 分布

XN(0,1),Yχ2(n)X\sim N(0,1),Y\sim \chi^2(n),且 X,YX,Y 独立,则:

t=XY/nt(n)t=\frac{X}{\sqrt{Y/n}}\sim t(n)

服从自由度为 nnt 分布

nn\to \infty 时,t 分布近似于 N(0,1)N(0,1).

「分位点」

概率密度是偶函数,所以分位点有:t1α(n)=tα(n)t_{1-\alpha}(n)=-t_{\alpha}(n).

F 分布

Xχ2(n1)X\sim \chi^2(n_1)Yχ2(n2)Y\sim \chi^2(n_2),且 X,YX,Y 独立,则:

F=X/n1Y/n2F(n1,n2)F=\frac{X/n1}{Y/n2}\sim F(n_1,n_2)

服从自由度为 (n1,n2)(n_1,n_2)F 分布

「与 t 分布的关系」

Xt(n)X2F(1,n)X\sim t(n)\Rightarrow X^2\sim F(1,n)

这是因为:X=UV/nX2=U2/1V/nX=\frac{U}{\sqrt{V/n}}\Rightarrow X^2=\frac{U^2/1}{V/n}

「分位点」

F1α(n1,n2)=1Fα(n2,n1)F_{1-\alpha}(n_1,n_2)=\dfrac{1}{F_\alpha(n_2,n_1)}

特征总结

  • χ2(n)\chi^2(n):平方和;
  • t(n)t(n):正态 / 根号下平方和,或分母有绝对值。
  • F(n1,n2)F(n_1,n_2):平方和 / 平方和。

例题

X1,X2,,X5X_1,X_2,\cdots,X_5 为总体 XN(0,1)X\sim N(0,1) 的一个样本,设 Y=(X1+X2+X3)2+(X42X5)2Y=(X_1+X_2+X_3)^2+(X_4-\sqrt{2}X_5)^2cYcY 服从 χ2\chi^2 分布,求系数 cc 的值.

把每个被平方的项,化为标准正态分布。

X1+X2+X3N(0,3)X_1+X_2+X_3\sim N(0,3),标准化,则有:

A=X1+X2+X303N(0,1)A=\frac{X_1+X_2+X_3-0}{\sqrt{3}}\sim N(0,1)

X42X5N(0,3)X_4-\sqrt{2}X_5\in N(0,3),标准化,则有:

B=X42X503N(0,1)B=\frac{X_4-\sqrt{2}X_5-0}{\sqrt{3}}\sim N(0,1)

另外 A,BA,B 显然独立,故 A2+B2=13Yχ2(2)A^2+B^2=\dfrac{1}{3}Y\sim \chi^2(2)c=13c=\dfrac{1}{3}.

正态总体抽样分布

  1. (Xˉμ)σ/nN(0,1)\dfrac{(\bar X-\mu)}{\sigma/\sqrt{n}}\sim N(0,1)

  2. 样本均值 Xˉ\bar X 和样本方差 S2S^2 相互独立

(n1)S2σ2=i=1n(XiXˉ)2σ2χ2(n1)\frac{(n-1)S^2}{\sigma^2}=\frac{\sum\limits_{i=1}^n(X_i-\bar X)^2}{\sigma^2}\sim\chi^2(n-1) i=1n(Xiμ)2σ2χ2(n)\frac{\sum\limits_{i=1}^n(X_i-\mu)^2}{\sigma^2}\sim\chi^2(n)
  1. T=XˉμS/nt(n1)T=\dfrac{\bar X-\mu}{S/\sqrt{n}}\sim t(n-1)
样本及抽样分布
https://www.tonyyin0418.com/blog/probability/chap-6
Author TonyYin
Published at May 13, 2025
Comment seems to stuck. Try to refresh?✨