# 1. 为什么样本方差(sample variance)的分母是n-1?
# 1.1. 完整的问题描述
如果已知随机变量X的期望为μ,那么可以如下计算方差σ^2:
上面的式子需要知道X的具体分布是什么(在现实应用中往往不知道准确分布),计算起来也比较复杂。
所以实践中常常采样之后,用下面这个S^2 来近似 σ^2:
其实现实中,往往连X的期望μ也不清楚,只知道样本的均值:
那么可以这么来计算S^2:
那么问题来了,为什么用样本均值X'代替总体均值μ后,分母变成了n-1?
# 1.2. 为什么分母是n-1?
# 1.2.1. 定性理解
我们不知道μ是多少的,只能计算出X'。不同的采样对应不同的X':
对于某次采样而言,当μ=X'时,下式取得最小值:
我们也是比较容易从图像中观察出这一点,只要μ偏离X',该值就会增大。
所以可知:
可推出:
进而推出:
可见,如果分母是n,倾向于低估σ^2。
# 1.2.2. 定量分析
其中:
所以:
其中:
所以:
也就是说,低估了σ^2/n,进行一下调整:
因此使用下面这个式子进行估计,得到的就是无偏估计: