[統計] Chi-Square Test 卡方檢定
Chi-Square Test 卡方檢定或稱為 Chi-Squared Goodness of Fit Test 主要是透過一個樣本取樣來檢測我們是否有足夠的信心去使用 Multinomial 分佈描述這個取樣目標的隨機行為?本篇的數學推導主要參考 Michael J. Evans and Jeffrey S.Rosenthal 著作的 Probability and Statistic, The Science of Uncertainty 一書。
目標變數假設總共有 (1) 
利用數學式 (1) 的特性,我們就可以計算出取樣的樣本位於整個分佈的哪一個位置,以此我們就可以利用統計的特性來推翻我們想要檢定的假設與否!以下我們想要紀錄數學的推導過程!推導參考的是由 A. W. van der Vaart, 著作的 Asymptotic Statistics 一書中的 17.2 定理:
首先我們將 (2) ![Rendered by QuickLaTeX.com \begin{equation*} \text{E}[Y_i] = (p_1,\cdots,p_k), \text{Cov}[Y_i]=\begin{pmatrix} p_1(1-p_1) & -p_1p_2 & \cdots & -p_1p_k\\ -p_2p_1 & p_2(1-p_2) & \cdots & -p_2p_k\\ \vdots& \vdots & & \vdots\\ -p_kp_1 & -p_kp_2 & \cdots & -p_k(1-p_k) \end{pmatrix} \end{equation*}](https://myoceane.fr/wp-content/ql-cache/quicklatex.com-681bf5e6ae5f79bb38887ab3ed5c067a_l3.png)
(3) ![Rendered by QuickLaTeX.com \begin{align*} \left(\frac{X_{n,i} - np_i}{\sqrt{np_i}},\cdots\right) &\sim N_k(0, \text{Cov}[Y_i])\\ \left(\frac{X_{n,i} - np_i}{\sqrt{np_i}},\cdots\right) &\sim N_k\left(0,\begin{pmatrix} (1-p_1) & -\sqrt{p_1p_2} & \cdots & -\sqrt{p_1p_k}\\ -\sqrt{p_2p_1} & (1-p_2) & \cdots & -\sqrt{p_2p_k}\\ \vdots& \vdots & & \vdots\\ -\sqrt{p_kp_1} & -\sqrt{p_kp_2} & \cdots & -(1-p_k) \end{pmatrix}\right)\\ \left(\frac{X_{n,i} - np_i}{\sqrt{np_i}},\cdots\right) &\sim N_k(0,I-\sqrt{p}\sqrt{p}^T) \end{align*}](https://myoceane.fr/wp-content/ql-cache/quicklatex.com-a622ce4867f2389b38b2f138e445b557_l3.png)
套用以下的定理一,我們可以推導
代入 (4) 
定理一:
如果定理一證明:
假設存在一個正交的矩陣以下分享一個 Chi-Square Test 的實作範例,可以透過取樣的數據去檢測我們的樣本是否可以用 Multinomial 的分佈來描述?
備註:
如果去探討兩個 Chi-Square Test 的 Multinomial 分佈是否有關係就是 Fisher Exact Test 在處理的進階問題。