Search Results for: Spark

[Hadoop] Hdfs Data Integrity with Checksum

Posted on 2021-09-082021-09-24 by 檸檬爸

使用 Spark/Hadoop 生態系這麼久之後，最近才開始來研究 Hadoop 的 checksum 機制是怎麼運作的？

[AKS] Azure Kubernetes Service 與常用指令

Posted on 2021-08-162021-09-13 by 檸檬爸

K8S 服務在業界已經是很常用的一個叢集管理技術了，在這邊記錄一些 K8S 的常用指令與利用 Azure Kubernetes 服務實作的一些輸出，關於 Kubernetes 的介紹可以參考以下的 Youtube 影片，讀文件很累的時候可以聽聽 IBM 的工程師是怎麼介紹 K8S。

詳細內容

[開發] 建立自己的 Nexus Repository

Posted on 2021-07-052021-09-16 by 檸檬爸

🍋 爸在法國擔任資料工程師的時候，頻繁地使用過 Nexus 這個資源庫倉儲系統，那時候使用 Nexus 主要的原因是因為在一間大公司裡面，常常各個部門之間的專案是互相依賴的，此時為了建置 CICD 的管理機制，他們會導入 Nexus 這樣的系統來分享自己編譯好的 Jar 檔(如果是 Java, Scala 的開發環境)，所有使用過 Maven 編譯的開發者應該會 nexus 也不陌生，很多著名的專案都是利用 Nexus 這樣的系統在分享他們的開源程式，例如 Apache Spark 等等，那時候🍋 爸主要是使用為主，本篇要介紹如何部署屬於自己的 Nexus Repository ?

詳細內容

[Big Data] Hadoop 3.x v.s 2.x

Posted on 2020-12-212020-12-21 by 檸檬爸

在上一篇我們探討了 Hdfs 在 Hadoop 3.1.2 的時候要怎麼安裝？最近由於筆者需要將 Spark 2.4 升到 Spark 3.0 以上，所以順便研究並且探討 Hadoop 3.x 與 Hadoop 2.x 版本的差異，本篇主要參考的是 Data Flair 網站上面的比較差異，我們整理並且精簡 22 項差異中到最重要的 7 項。

詳細內容

VCF – Variant Calling Format 基因變異儲存格式

Posted on 2020-07-192020-07-21 by 檸檬爸

生物資訊領域是近幾年來很熱門的一個領域，本篇紀錄有關 VCF – Variant Calling Format 基因變異儲存格式檔案的處理過程，有關於 VCF 的簡單介紹可以參考連結，也可以參考 Wikipedia 裡面關於 VCF 的介紹，一個 VCF 檔案大致上長成以下的樣子

詳細內容

[Python] 套件管理 – Poetry

Posted on 2020-06-092020-06-12 by 檸檬爸

介紹另外一個 Python 套件用於套件管理 – Poetry，相較於 pip 的管理方式，poetry 的好處在於當我們刪除掉某一個不需要的 package 的時候，我們可以也把其他相關但是不需要的套件一併刪除，由此可以精簡真正需要的 Python 套件，不會過度增加不必要的 python 套件，以下我們舉實例演釋。

詳細內容

[Hive/HBase] 如何串接 Hive/HBase 資料庫

Posted on 2020-03-312022-09-23 by 檸檬爸

一般來說在視覺化資料庫的方法一般來說如果是 Hive 資料庫可以透過 DBeaver 等等類似 SQL Client 的程式來顯現，但是如果是像是 HBase 的資料庫的話基本上很難快速了解 HBase 裡面存取的檔案全貌，如果可以利用 Hive 用表格的方式呈現的話會比較好理解，本篇想要介紹如何將 HBase 利用 Hive 呈現出來！

詳細內容

[Oozie] Continuous Delivery with Oozie

Posted on 2020-02-292020-02-29 by 檸檬爸

在大數據的平台上開發大數據應用的時候，如果想要自動化執行不同的 Spark 腳本的話，很常會使用 Apache Oozie 這個軟體，如果想要配合一些 Continuous Delivery 的工具如 Jenkins 和 TeamCity 來使用的時候，需要透過 Oozie 的 WebAPI 來使用，有兩種主要的使用方法，一種是利用 Shell Script 下達 Curl 的指令快速溝通，另一種方式則是利用 Oozie 專案開發的 OozieClient 配合 groovy 或是 Java 的指令運行。

詳細內容

[BigData] 大數據中的 Join

Posted on 2019-12-252019-12-30 by 檸檬爸

Join 是一個在關聯性資料庫裡面很常使用的一個運算元，在大數據資料庫慢慢普及的今天，Join 還是一個幫助我們了解資料關係不可或缺的角色，今天想要討論的是在 Spark 裡面 Join 背後執行的運算原理，筆者在執行 Spark 工作的時候，有時候需要優化資料的運算過程以降低運算所需要的時間，本篇的資料來源可以參考連結，另外筆者也很建議大家觀看以下這一個 Youtube 影片。

詳細內容

Search Results for: Spark

[Hadoop] Hdfs Data Integrity with Checksum

[AKS] Azure Kubernetes Service 與常用指令

[開發] 建立自己的 Nexus Repository

[Big Data] Hadoop 3.x v.s 2.x

VCF – Variant Calling Format 基因變異儲存格式

[Python] 套件管理 – Poetry

[Hive/HBase] 如何串接 Hive/HBase 資料庫

[Oozie] Continuous Delivery with Oozie

[BigData] 大數據中的 Join

Most Viewed Posts

Categories

Recent Posts

Archives

Facebook Page Widget

Contact Us

檸檬媽

檸檬爸