# 1. 为什么样本方差(sample variance)的分母是n-1?

# 1.1. 完整的问题描述

如果已知随机变量X的期望为μ,那么可以如下计算方差σ^2:

img

上面的式子需要知道X的具体分布是什么(在现实应用中往往不知道准确分布),计算起来也比较复杂。

所以实践中常常采样之后,用下面这个S^2 来近似 σ^2

img

其实现实中,往往连X的期望μ也不清楚,只知道样本的均值

img

那么可以这么来计算S^2:

img

那么问题来了,为什么用样本均值X'代替总体均值μ后,分母变成了n-1

# 1.2. 为什么分母是n-1?

# 1.2.1. 定性理解

我们不知道μ是多少的,只能计算出X'。不同的采样对应不同的X':

对于某次采样而言,当μ=X'时,下式取得最小值:

img

我们也是比较容易从图像中观察出这一点,只要μ偏离X',该值就会增大

所以可知:

img

可推出:

img

进而推出:

img

可见,如果分母是n,倾向于低估σ^2

# 1.2.2. 定量分析

img

其中:

img

所以:

img

其中:

img

所以:

img

也就是说,低估了σ^2/n,进行一下调整:

img

因此使用下面这个式子进行估计,得到的就是无偏估计:

img