[Hadoop] Hdfs Data Integrity with Checksum
使用 Spark/Hadoop 生態系這麼久之後,最近才開始來研究 Hadoop 的 checksum 機制是怎麼運作的?
詳細內容想方涉法, France, Taiwan, Health, Information Technology
使用 Spark/Hadoop 生態系這麼久之後,最近才開始來研究 Hadoop 的 checksum 機制是怎麼運作的?
詳細內容最近在研究如何在 K8S 上面跑一個 On-Demand 的 Spark Cluster 服務,基本上有兩條路可以走,一條是利用 k8s 的 Deployment 來自建 Spark Cluster,另外一條路則是利用 Kubernetes 既有與 Spark 對接的介面 (這邊是利用 spark-submit) 來實作,概念上就是直接執行一個類似下方的指令,所以想要擁有一個 On-Demand Spark Cluster on AKS 這兩種方法個有什麼優劣?
詳細內容K8S 服務在業界已經是很常用的一個叢集管理技術了,在這邊記錄一些 K8S 的常用指令與利用 Azure Kubernetes 服務實作的一些輸出,關於 Kubernetes 的介紹可以參考以下的 Youtube 影片,讀文件很累的時候可以聽聽 IBM 的工程師是怎麼介紹 K8S。
詳細內容🍋 爸在法國擔任資料工程師的時候,頻繁地使用過 Nexus 這個資源庫倉儲系統,那時候使用 Nexus 主要的原因是因為在一間大公司裡面,常常各個部門之間的專案是互相依賴的,此時為了建置 CICD 的管理機制,他們會導入 Nexus 這樣的系統來分享自己編譯好的 Jar 檔(如果是 Java, Scala 的開發環境),所有使用過 Maven 編譯的開發者應該會 nexus 也不陌生,很多著名的專案都是利用 Nexus 這樣的系統在分享他們的開源程式,例如 Apache Spark 等等,那時候🍋 爸主要是使用為主,本篇要介紹如何部署屬於自己的 Nexus Repository ?
詳細內容8種轉義字符 ( Escape Characters ): \’ 單引號,\\ 反斜線,\n 換行,\t 空格,\b 退格鍵,\ooo 八進制值,\xhh 十六進制值,\f 換頁
詳細內容Python Data Types 資料類型 – Functions 函數
詳細內容進入大數據的世界,基本上脫離不了使用 Spark 這個平行運算的框架,把問題拆小之後,利用螞蟻雄兵的力量可以更容易解決問題,這也是離散數學裡面提到的 Divide and Conquer 的概念,檸檬爸之前有寫過一些介紹 Spark 的文章,也有介紹如何在 Azure 的雲端平台裡面去開啟 On Demand 的 Spark Cluster。本篇要來介紹在運行 Spark Cluster 的時候一定不要忘記要開的 Spark History Server,本篇參考 aztk 的程式碼與 Spark 3.0.1 關於 Monitoring 的網頁,介紹怎麼使用 Spark History Server 。
詳細內容Python Data Types 資料類型 – Strings 字串:利用小括號( ( ) )
詳細內容資料類型在Python中很重要,不同資料類型的數據,執行方式會不一樣。因此,當需要做演算時,必須先瞭解資料的類型。
詳細內容本篇的背景是想要利用 ELK 建立一個接收錯誤訊息的環境,本篇分成幾個部分做一個紀錄,首先建立 ELK 的服務,然後必須要在這兩的服務上面啟動 TLS (SSL) ,接著在 Android 程式端在建置好 Logger 就可以將錯誤訊息記錄到 ELK 裡面,這次卡比較久的地方是在 java.security.cert.CertPathValidatorException: Trust anchor for certification path 這個錯誤,所以本篇以此為標題。
詳細內容