[統計] 為什麼樣本標準差要除以 n-1 ?
本篇想要簡單的紀錄並且回答一個學習統計的人會遇到的問題,其實有不少統計的老師有討論過這個問題例如連結,但是並不是經過一個比較嚴謹的數學推導,本篇取材的來源是由 Michael J. Evans and Jeffrey S.Rosenthal 著作的 Probability and Statistic, The Science of Uncertainty 一書,點擊即可以下載。
假設 (1)
(2)
(3)
(4)
(5)
在統計的學術範疇裡面樣本的變異量在計算的時候通常是使用以下的公式:
(6)
主要是因為在取樣的時候,我們無法知道究竟樣本變異數的平均值是多少,所以最好估計母體變異數的方法就是直接計算樣本變異數並且經過貝索校準 (Bessel Correction)。
分佈的推導,可以參考書中的 Proof of Theorem 4.6.6。
證明:關於 在開始證明之前我們需要先準備好 Chi-Square 的定義與另外一的定理作為基礎:
我們先說明 chi-square distribution with 定義一:
(7)
假設 定理一:(高斯分佈的線性組合也是高斯分佈)
(8)
使用了以上的兩個基礎之後:
則很神奇的 (9)