apache-spark

安裝 Spark 到遠端伺服器

Apache Spark 是一個平行運算的運算平台,由於他在處理不同檔案格式都有強大的資源庫支援,所以如果 leverage 來進行一些資料處理的開發很合適,另外 Spark 可以使用 local 或是 yarn 模式,使用 local 模式開發的進入障礙不會很大,本篇說明如何安裝 Spark 到遠端伺服器上面,部署並執行 spark 的程式!

詳細內容

[Big Data] Azure Batch Auto Scaling

在上一篇我們介紹了 Azure 提供的雲端運算資源,例如 Databricks, HDInsight, Azure Batch 等等,利用 AZTK 可以快速部署一個運算的群集,用戶可以指定 Dedicated Nodes 的數量和 Low Priority Nodes 的數量,本篇想要介紹 Azure Batch Auto Scaling 的功能以及如何使用,詳細可以參考以下文章。

詳細內容

[Python] 套件管理 – Poetry

介紹另外一個 Python 套件用於套件管理 – Poetry,相較於 pip 的管理方式,poetry 的好處在於當我們刪除掉某一個不需要的 package 的時候,我們可以也把其他相關但是不需要的套件一併刪除,由此可以精簡真正需要的 Python 套件,不會過度增加不必要的 python 套件,以下我們舉實例演釋。

詳細內容