Category: Big Data & Machine Learning

[Hadoop] Hdfs Data Integrity with Checksum

Posted on 2021-09-082021-09-24 by 檸檬爸

使用 Spark/Hadoop 生態系這麼久之後，最近才開始來研究 Hadoop 的 checksum 機制是怎麼運作的？

[K8S] On-Demand Spark Cluster on AKS

Posted on 2021-08-172021-12-15 by 檸檬爸

最近在研究如何在 K8S 上面跑一個 On-Demand 的 Spark Cluster 服務，基本上有兩條路可以走，一條是利用 k8s 的 Deployment 來自建 Spark Cluster，另外一條路則是利用 Kubernetes 既有與 Spark 對接的介面 (這邊是利用 spark-submit) 來實作，概念上就是直接執行一個類似下方的指令，所以想要擁有一個 On-Demand Spark Cluster on AKS 這兩種方法個有什麼優劣？

詳細內容

[Spark] 建置自己的 Spark History Server

Posted on 2021-03-172021-03-17 by 檸檬爸

進入大數據的世界，基本上脫離不了使用 Spark 這個平行運算的框架，把問題拆小之後，利用螞蟻雄兵的力量可以更容易解決問題，這也是離散數學裡面提到的 Divide and Conquer 的概念，檸檬爸之前有寫過一些介紹 Spark 的文章，也有介紹如何在 Azure 的雲端平台裡面去開啟 On Demand 的 Spark Cluster。本篇要來介紹在運行 Spark Cluster 的時候一定不要忘記要開的 Spark History Server，本篇參考 aztk 的程式碼與 Spark 3.0.1 關於 Monitoring 的網頁，介紹怎麼使用 Spark History Server 。

詳細內容

[Big Data] Hadoop 3.x v.s 2.x

Posted on 2020-12-212020-12-21 by 檸檬爸

在上一篇我們探討了 Hdfs 在 Hadoop 3.1.2 的時候要怎麼安裝？最近由於筆者需要將 Spark 2.4 升到 Spark 3.0 以上，所以順便研究並且探討 Hadoop 3.x 與 Hadoop 2.x 版本的差異，本篇主要參考的是 Data Flair 網站上面的比較差異，我們整理並且精簡 22 項差異中到最重要的 7 項。

詳細內容

Google Storage 介紹

Posted on 2020-10-152020-11-14 by 檸檬爸

因緣際會之下開始使用 Google Storage 的服務，所以想說要用一篇文章記錄，由於 Google Cloud 的服務五花八門非常多樣化，所以這邊主要會專注在介紹 Google Storage，包含安裝與一些簡單的操作。

詳細內容

安裝 Spark 到遠端伺服器

Posted on 2020-06-212020-06-22 by 檸檬爸

Apache Spark 是一個平行運算的運算平台，由於他在處理不同檔案格式都有強大的資源庫支援，所以如果 leverage 來進行一些資料處理的開發很合適，另外 Spark 可以使用 local 或是 yarn 模式，使用 local 模式開發的進入障礙不會很大，本篇說明如何安裝 Spark 到遠端伺服器上面，部署並執行 spark 的程式！

詳細內容

[Big Data] Azure Batch Auto Scaling

Posted on 2020-06-102020-06-12 by 檸檬爸

在上一篇我們介紹了 Azure 提供的雲端運算資源，例如 Databricks, HDInsight, Azure Batch 等等，利用 AZTK 可以快速部署一個運算的群集，用戶可以指定 Dedicated Nodes 的數量和 Low Priority Nodes 的數量，本篇想要介紹 Azure Batch Auto Scaling 的功能以及如何使用，詳細可以參考以下文章。

詳細內容

[ML] PCA 主成份分析

Posted on 2020-04-242020-04-25 by 檸檬爸

本篇想要介紹一下 Principle Component Analysis, PCA 主成份分析這一個方法背後的數學理論與物理意義，參考的是台大資工系林軒田教授的講義，在林教授的講解過程中，PCA 其實是 Auto-Encoder 中的一個線性特例，如果從 Auto-Encoder 的角度來看 PCA 的話可以更加了解 PCA 主成份分析的物理意義！

詳細內容

[Azure] Databricks-CLI 安裝使用

Posted on 2020-04-122020-04-18 by 檸檬爸

本篇想要講述如何利用 Databricks 提供的 CLI 來針對需求下指令！透過 Databricks-CLI 的幫助許多自動化的流程可以比較容易被實現，本篇參考的是 Azure Databricks 的官方安裝指南。

詳細內容

Category: Big Data & Machine Learning

[Hadoop] Hdfs Data Integrity with Checksum

[K8S] On-Demand Spark Cluster on AKS

[Spark] 建置自己的 Spark History Server

[Big Data] Hadoop 3.x v.s 2.x

Google Storage 介紹

安裝 Spark 到遠端伺服器

[Big Data] Azure Batch Auto Scaling

[ML] PCA 主成份分析

[Azure] Databricks-CLI 安裝使用

Most Viewed Posts

Categories

Recent Posts

Archives

Facebook Page Widget

Contact Us

檸檬媽

檸檬爸