[統計] Chi-Square Test 卡方檢定
Chi-Square Test 卡方檢定或稱為 Chi-Squared Goodness of Fit Test 主要是透過一個樣本取樣來檢測我們是否有足夠的信心去使用 Multinomial 分佈描述這個取樣目標的隨機行為?本篇的數學推導主要參考 Michael J. Evans and Jeffrey S.Rosenthal 著作的 Probability and Statistic, The Science of Uncertainty 一書。
目標變數假設總共有 個分類,假設做取樣的結果在 個分類中各自共有 的樣本數,且總共取樣樣本數為 ,如果 Multinomial 的話,那麼 會呈現自由度 的 分佈。(1)
利用數學式 (1) 的特性,我們就可以計算出取樣的樣本位於整個分佈的哪一個位置,以此我們就可以利用統計的特性來推翻我們想要檢定的假設與否!以下我們想要紀錄數學的推導過程!推導參考的是由 A. W. van der Vaart, 著作的 Asymptotic Statistics 一書中的 17.2 定理:
首先我們將 向量拆解成 個單位向量,且 ,則關於 這一個隨機向量的統計特性的描述可以用以下表示:(2)
根據多變數中央極限定理 (multivariate central limit theorem),則 可以由 的統計特性描述:(3)
套用以下的定理一,我們可以推導
代入 ,由於 ,所以矩陣中有一行可以是其他的線性組合,所以 rank < k,所以 中有一個是 ,其他 都是 ,所以(4)
如果 向量是 的高斯分佈的話,那麼 的分佈與 一致,其中 是 矩陣的 eigenvalues,而 則是 i.i.d 的 的高斯分佈。 定理一:
假設存在一個正交的矩陣 ,也就是說 ,可以使得 ,那麼 向量就會呈現 這一個 維的高斯多變數分佈,於是乎 。 定理一證明:
以下分享一個 Chi-Square Test 的實作範例,可以透過取樣的數據去檢測我們的樣本是否可以用 Multinomial 的分佈來描述?
備註:
如果去探討兩個 Chi-Square Test 的 Multinomial 分佈是否有關係就是 Fisher Exact Test 在處理的進階問題。