Category: IT Technology

[BigData] 客製化 Apache Spark 在 ARM64 架構上

Posted on 2025-07-192025-07-31 by 檸檬爸

在創建以 Spark 為基礎的應用程式的時候，基本上都會直接下載 Spark 官網打包好的程式碼，在官網上的 Spark 是以 Intel x86 架構為主的，由於 Java 並沒有架構上的差異，所以之前在 Spark K8S 並沒有遇到一樣的問題，但是在一次實務上驅動 Spark Standalone 的時候遇到以下的錯誤訊息，主要是跟 External Shuffle Service 有關，這個錯誤並不會出現在以 Spark K8S 為方式驅動的應用，但是 External Shuffle Manager 會遇到，所以筆者才會需要利用 Spark 提供的 make-distribution.sh 檔案去重新打包 Apache Spark 在 ARM64 架構上。

詳細內容

[GPU] 加速主成分分析 (PCA)

Posted on 2025-07-042025-07-04 by 檸檬爸

檸檬爸幾年前有分享過一篇主成分分析 (Principle Component Analysis) 原理的文章，由於 PCA 其實就是矩陣的運算，所以非常適合使用分散式運算來做加速，不論是 Spark 或是 GPU 的架構都很適合，Spark MLlib 本身就可以加速 PCA 等機器學習的運算，使用 cuML + GPU 根據 Nvidia Blog 的數據，加速的效果更加明顯，本篇想要紀錄如何導入 GPU 到 PCA 等等傳統的機器學習運算？

詳細內容

[CICD] Deploy Nexus on AWS

Posted on 2025-06-172025-06-19 by 檸檬爸

檸檬爸在 2021 年的時候寫過一篇有關 Nexus 的文章，那時使用的是 Nexus Open Source 的版本，自己部署在 Azure 的 App Service 上面，後來一些緣故研究了雲端的方案，本來是想要託管 Nexus 成一個 Saas 的服務，但是由於價錢太貴，所以還是走雲端自己管理的模式，不過嘗試把 Nexus 從 App Service 搬出來到一個 dedicated VM，本篇紀錄的是使用 AWS 作為雲端服務商部署 Sonaytype Nexus Repository 的服務。

詳細內容

[BigData] 實作 Spark 將 MSSQL 檔案平行匯出

Posted on 2025-05-292025-06-06 by 檸檬爸

Spark 2.1.0 之後，JDBC (Java Database Connectivity) 被引入作為一個 Spark 應用的其中一種輸入，在數位轉型的過程中我們很常需要將企業中的資料倉儲匯入資料湖庫，為了省去資料轉換的功夫，最好的方法就是直接將 RDBMS 的資料直接轉進 Datalake 裡面，本篇希望紀錄在 Spark 3.3.0 環境中將 MSSQL 的巨量資料轉移到地端的資料湖庫中的過程與 TroubleShooting。

詳細內容

[BigData] Troubleshooting BeeGFS Deployment

Posted on 2025-04-252025-04-25 by 檸檬爸

在上一篇介紹了 BeeGFS 如何與 k8s 的機器做對接，本篇希望能夠分享與紀錄檸檬爸在實際安裝 BeeGFS 到地端 k8s 叢集的時候，遇到的很多問題，以下是關於這些問題的 TroubleShooting 與一些 BeeGFS 工具的實用整理，由於 BeeGFS 是一個博大精深，筆者也是持續在學習中。

詳細內容

[GCP] Spark Hadoop Access with Requester Pays

Posted on 2025-04-122025-04-12 by 檸檬爸

在生醫領域有很多開放資料都是存在 Google Cloud Platform (GCP)，有時候要避免大量複製檔案，我們會想要直接使用 gs:// 開頭的開放資料當作 Spark Table 的後端路徑，與 AWS 與 Azure 不同的是 GCP Dataproc 提供了一個使用者付費的方式，顧名思義就是資料的傳輸費用是由使用者去支付的，本篇紀錄如何設定 Spark Cluster 的設定檔透過 Spark SQL 的方式直接使用公開的資料，減少複製檔案與儲存帶來的成本。

詳細內容

在 K8S 上簡單實現 Nvidia GPU Time-Slicing

Posted on 2025-03-092025-03-09 by 檸檬爸

Nvidia 的 GPU 目前是市場上使用的主流，在雲的世界裡面，由於大部分的使用場景是按需 (On Demand)，因此 K8S 慢慢地也是雲端管理資源的一個利器，如何在 Kubernetes 上調用 GPU 的資源相對地也越來越普遍，本篇整理了目前網路上可以看到 Nvidia GPU 於操作方法，並且介紹一種簡單實現 GPU Time-Slicing 的設定。

詳細內容

[Python] Python on which CPU Arch x86 or arm ?

Posted on 2025-02-232025-02-23 by 檸檬爸

檸檬爸人生中開始使用 Apple Macbook 是在 2014 年的時候，距今也已經 10 年以上了，那時候 Macbook 的晶片架構主要是 Intel x86，一直以來都是利用 Apple 的備份工具轉換了好幾台電腦，直到去年開始使用 Apple M1 的晶片，切換到了 arm 的架構，慢慢地遇到了一些 Python 程式不能跑在 arm 架構上的問題，由於以前預設是 x86 的環境，所以自然而然 homebrew 安裝的相關程式都是 x86 的版本，例如眾多的 Python 版本，本篇紀錄如何調整 Macbook 使其能夠共存。

詳細內容

[BigData] PySpark on Jupyter Lab

Posted on 2025-01-262025-01-26 by 檸檬爸

Jupyter Notebook/Lab 是一個常用的互動式介面協助各種程式碼的開發我們在上一篇『建立自己的 Jupyter Notebook 伺服器』有稍微介紹過，一般常見的使用場景是在開發 python 的程式，但是 Jupyter Server 的 Kernel 功能可以擴充更多的互動式開發環境，例如 R, PySpark, SparkR, SparklyR 等等，檸檬爸最早接觸的是將 PySpark 註冊到 Jupyter Lab 裡面，實作的程式碼是透過 AZTK 的 Repository 學習到的，後來進一步將其擴充到 R 等等的使用場景，本篇將會呈現如何部署一個有 PySpark 核心的 Jupyter Lab。

詳細內容

[BigData] 整合 BeeGFS 到 K8S 生態系

Posted on 2024-12-202025-04-22 by 檸檬爸

雖然公有雲的服務例如 AWS, Azure, GCP 已經逐漸普及了，但是私有雲 HPC 的市場還是一直有相對的份額，不同於公有雲的儲存服務，在佈建私有雲的時候，儲存 (Storage) 的解決方案仍然是一個需要花費大量心力的議題，本篇紀錄如何將 HPC 儲存方案之一的 BeeGFS 掛載到 K8S 的生態系裡面。

詳細內容

Category: IT Technology

[BigData] 客製化 Apache Spark 在 ARM64 架構上

[GPU] 加速主成分分析 (PCA)

[CICD] Deploy Nexus on AWS

[BigData] 實作 Spark 將 MSSQL 檔案平行匯出

[BigData] Troubleshooting BeeGFS Deployment

[GCP] Spark Hadoop Access with Requester Pays

在 K8S 上簡單實現 Nvidia GPU Time-Slicing

[Python] Python on which CPU Arch x86 or arm ?

[BigData] PySpark on Jupyter Lab

[BigData] 整合 BeeGFS 到 K8S 生態系

Most Viewed Posts

Categories

Recent Posts

Archives

Facebook Page Widget

Contact Us

檸檬媽

檸檬爸