[Hdfs] 利用 FileSystem 傳資料到 Hdfs?

在開始做大數據的專案的時候通常都會遇到這個問題,要先把資料送到 Hdfs 上之後,資料才有可能被 Spark 等程式使用,一般來說傳送檔案到 Hdfs 可以利用以下方法,EMS/RabbitMQ, Knox Server, FTR 或是 Kafka 等等,常見的做法是透過 Knox 伺服器,由於 Hdfs 的群集是由多個 NameNode 與多個 DataNode 組成,最直接的做法是產生一個 FileSystem 直接指向 Hdfs 而不是透過 Knox,本篇要呈現如何不透過 Knox 向 Hdfs 傳送資料!

Continue reading

為什麼要打疫苗呢?

成年後仍然需要施打疫苗。即使小時後有接種過疫苗,成年後仍然需要施打,其原因:
1. 有些疾病是在成年後得到的風險比較大,例如帶狀皰疹,因此其疫苗是建議成年人施打。
2. 有些疫苗於兒童時期施打,但隨著時間推移使其保護力下降,因此需要再次施打。
3. 有些新型疫苗是近年才上市。
4. 有些病毒會隨著時間而不一樣,像是流感病毒,因此高風險的人需要每年施打。

Continue reading

[Big Data] 建立 BigData 在 Local 的測試環境

在開發 Spark 大數據程式的時候,基本上都會遇到測試的需求,但是可能當時並沒有建立相對應的服務 Cluster 例如 Hdfs, Hive, HBase 等等的資料庫,所以在開發上面會遇到很多困難,其實 Hdfs 還算是比較好解決的,使用 FileSystem 某種程度上面還是可以利用本機的磁碟模擬 Hdfs測試其 Java 程式與 Hdfs 的溝通情況,但是如果遇到像是 Hive, HBase 等等的資料庫,在沒有真正群集的情況之下如何測試自己的程式就變得非常需要了!本篇要介紹的是一個第三方函式庫可以幫助我們單元測試 Java 的程式:

Continue reading

[HBase] HBase-2.2.0 安裝教學

在擁有 HDFS 這個儲存資料的平台之後,我們能夠做的應用就很多了,本篇要來介紹如何安裝 HBase 2.2.0,與 Hadoop 相同,HBase 也是使用 Java 來撰寫為主。Hadoop ecosystem 工具簡介, 安裝教學與各種情境使用系列 第 10 篇裡面教學使用 HBase2.0.x,但是只支援Hadoop 2.6.1+與2.7.1+版本,使用 Hadoop-3.1.2 目前可以支援的 HBase 版本為 HBase-2.2.0 (released at 2019/06/11) 參考連結。

Continue reading