Category: IT Technology

PCA 主成份分析

[ML] PCA 主成份分析

本篇想要介紹一下 Principle Component Analysis, PCA 主成份分析這一個方法背後的數學理論與物理意義,參考的是台大資工系林軒田教授的講義,在林教授的講解過程中,PCA 其實是 Auto-Encoder 中的一個線性特例,如果從 Auto-Encoder 的角度來看 PCA 的話可以更加了解 PCA 主成份分析的物理意義!

詳細內容

[統計] Chi-Square Test 卡方檢定

Chi-Square Test 或稱為 Chi-Squared Goodness of Fit Test 主要是透過一個樣本取樣來檢測我們是否有足夠的信心去使用 Multinomial 分佈描述這個取樣目標的隨機行為?本篇的數學推導主要參考 Michael J. Evans and Jeffrey S.Rosenthal 著作的 Probability and Statistic, The Science of Uncertainty 一書。

詳細內容

[Git] 使用 fork 的好處

Git 是一個軟體工程師幾乎必備的工具,市面上已經有很多介紹 Git 的使用方法,本篇想要紀錄在 fork 一個專案時會需要用到的指令與使用 fork 的好處!使用 fork 的好處是可以在原本 Git 專案之外創造一個個人的遠端空間或是可以與團隊共享,在 fork 中開發的專案基本上不會影響原生的專案但是又可以寶由原本專案中的所有紀錄。

詳細內容

[統計] Fisher Exact Test

Fisher Exact Test 是一個檢驗兩個變數是否相關的方法?在基因大數據的領域裡面算是很常見的方法之一,詳細可以參考連結,由於在研讀 Fisher Exact Test 的時候,我們發現大部分網路上可以找到的訊息例如連結一,連結二都只有直接展示計算的結果但是沒有推導所以我們很難真正理解這些數學式背後的意義,本篇的推導參考 Michael J. Evans and Jeffrey S.Rosenthal 著作的 Probability and Statistic, The Science of Uncertainty 一書。

詳細內容

[Hive/HBase] 如何串接 Hive/HBase 資料庫

一般來說在視覺化資料庫的方法一般來說如果是 Hive 資料庫可以透過 DBeaver 等等類似 SQL Client 的程式來顯現,但是如果是像是 HBase 的資料庫的話基本上很難快速了解 HBase 裡面存取的檔案全貌,如果可以利用 Hive 用表格的方式呈現的話會比較好理解,本篇想要介紹如何將 HBase 利用 Hive 呈現出來!

詳細內容

[統計] 為什麼樣本標準差要除以 n-1 ?

本篇想要簡單的紀錄並且回答一個學習統計的人會遇到的問題,其實有不少統計的老師有討論過這個問題例如連結,但是並不是經過一個比較嚴謹的數學推導,本篇取材的來源是由 Michael J. Evans and Jeffrey S.Rosenthal 著作的機率與統計,不確定性的科學一書,點擊即可以下載。

詳細內容

[Spark] Row: getList() 的隱藏錯誤

在開發 Java Spark 的時候,常常會需要轉換 Dataset 或是 DataFrame,對於比較大的表格格式變換 (Schema Change),通常會使用到 JavaRDD 與 Row,開發時用到比較複雜的資料結構像是 List 或是 Map 等等的時候,有時候發生錯誤並不知道要如何除錯?本篇想要展示類別 Row: getList() 的隱藏錯誤在使用的時候發生無法理解的 NullPointerException 現象並且其解決的方法!

詳細內容