Search Results for: Spark

[Spark] Define and Register Hive UDF with Spark Rapids

Posted on 2023-12-242023-12-28 by 檸檬爸

在上一篇我們介紹如何透過 Spark Rapids 去利用 GPU 加速執行 SQL，我們遇到了幾個問題並一一解決，最後我們成功在 Spark Thrift Server 上面啟動了 Spark Rapids 的功能，並且使用 pyHive 將 SQL 的 Request 送進 Spark Cluster 裡面，為了要更進一步完全使用 GPU 的資源，在執行 SQL command 的時候如果遇到沒有支援 Spark Rapids 的 UDF (User-Defined Function) 的時候，會拖慢整體的速度，讓使用 GPU 的效果沒有發揮出來，因此本篇想要紀錄如何實作並定義一個 Hive UDF。

詳細內容

[Rapids] Support Spark SQL with Spark Rapids

Posted on 2023-09-232023-12-24 by 檸檬爸

Spark SQL 是很多公司提供給商業智慧 BI (Business Intelligence) 的大數據介面，🍋爸在介紹完 Spark Thrift Server 之後，使用者可以透過 Spark SQL 對自己的資料做操作，Spark SQL 的好處是可以很容易去滿足使用者的需求，但是往往容易遇到因為使用者執行複雜 Query 導致的效能低落，本篇想要透過導入 Spark Rapids 配合 Spark Thrift Server 引入 GPU 的資源看看是否能夠加速 Spark SQL 的運算效率？

詳細內容

[ML] Fine Tune Spark NLP QA model

Posted on 2023-08-042023-09-23 by 檸檬爸

使用 Spark NLP 去執行 Question Answering 的範例，可以參考 JohnSnowLabs 裡面很多的 Question Answering 模型，例如 Roberta QA Model，至於要怎麼去 Fine Tune QA 模型？在 Spark NLP 裡面並沒有講解得很清楚，本篇想要記錄如何 Fine Tune 一個自己的 QA 模型供 Spark NLP 來使用？

詳細內容

[Hive] Hive Server with Spark Standalone

Posted on 2023-04-122023-09-23 by 檸檬爸

在上一篇我們介紹了如何利用 MySQL 服務建立屬於自己的 Hive Metastore 資料庫，並且利用 Spark SQL 的方式對 Metastore 裡面的資料做存取，根據上方圖示，我們可以理解除了 Spark 可以對 Hive Metastore 做存儲之外，我們也可以利用 Hive, Impala, Presto, Apache Hudi 甚至是最近出來的 Apache Superset 來做資料串接，本篇想要紀錄並且比較這幾種技術的優缺點是什麼？

詳細內容

[Hive] 在 Spark 存取自己的 Hive Metastore

Posted on 2022-09-232023-04-12 by 檸檬爸

擁有一個自己的 Hive Metastore 的好處是方便管理自己的資料，利用 Hive Metastore 可以把資料表與大數據平台上面的資料關連起來。Hive Metastore 可以部署在不同的資料庫上面，例如 MySQL 或是 Microsoft SQL Database。

詳細內容

[Rapids] Enable GPU on Spark

Posted on 2022-08-062022-08-06 by 檸檬爸

最近在學習有關 Spark 跑在 GPU 上面的新技術 (Rapid) 本篇記錄一些有用的學習資源，最直接的就是看 Rapids 的 Github。但是直接看 Code 的缺點就是一下子太多資訊，所以如果能夠配合著一些概念性的影片介紹就能夠很快的了解 Rapids 的架構。

詳細內容

[Spark] 常見錯誤 NoSuchMethodError/ClassNotFound

Posted on 2022-04-142022-04-15 by 檸檬爸

檸檬爸在開發 Spark, Java, Scala 程式的時候很常遇到 NoSuchMethodError/ClassNotFound 這兩個錯誤，通常出現這兩個錯誤訊息的時候，主要原因是因為 Java Package 的 Dependency Conflict，在開發 Spark 的應用的時候究竟要怎麽去處理會比較好？本篇想要紀錄幾個常用的解法，包含Java 指令, JD-GUI 與 Maven Dependency:Tree 的介紹。

詳細內容

[K8S] On-Demand Spark Cluster on AKS

Posted on 2021-08-172021-12-15 by 檸檬爸

最近在研究如何在 K8S 上面跑一個 On-Demand 的 Spark Cluster 服務，基本上有兩條路可以走，一條是利用 k8s 的 Deployment 來自建 Spark Cluster，另外一條路則是利用 Kubernetes 既有與 Spark 對接的介面 (這邊是利用 spark-submit) 來實作，概念上就是直接執行一個類似下方的指令，所以想要擁有一個 On-Demand Spark Cluster on AKS 這兩種方法個有什麼優劣？

詳細內容

[Spark] 建置自己的 Spark History Server

Posted on 2021-03-172021-03-17 by 檸檬爸

進入大數據的世界，基本上脫離不了使用 Spark 這個平行運算的框架，把問題拆小之後，利用螞蟻雄兵的力量可以更容易解決問題，這也是離散數學裡面提到的 Divide and Conquer 的概念，檸檬爸之前有寫過一些介紹 Spark 的文章，也有介紹如何在 Azure 的雲端平台裡面去開啟 On Demand 的 Spark Cluster。本篇要來介紹在運行 Spark Cluster 的時候一定不要忘記要開的 Spark History Server，本篇參考 aztk 的程式碼與 Spark 3.0.1 關於 Monitoring 的網頁，介紹怎麼使用 Spark History Server 。

詳細內容

安裝 Spark 到遠端伺服器

Posted on 2020-06-212020-06-22 by 檸檬爸

Apache Spark 是一個平行運算的運算平台，由於他在處理不同檔案格式都有強大的資源庫支援，所以如果 leverage 來進行一些資料處理的開發很合適，另外 Spark 可以使用 local 或是 yarn 模式，使用 local 模式開發的進入障礙不會很大，本篇說明如何安裝 Spark 到遠端伺服器上面，部署並執行 spark 的程式！

詳細內容

Search Results for: Spark

[Spark] Define and Register Hive UDF with Spark Rapids

[Rapids] Support Spark SQL with Spark Rapids

[ML] Fine Tune Spark NLP QA model

[Hive] Hive Server with Spark Standalone

[Hive] 在 Spark 存取自己的 Hive Metastore

[Rapids] Enable GPU on Spark

[Spark] 常見錯誤 NoSuchMethodError/ClassNotFound

[K8S] On-Demand Spark Cluster on AKS

[Spark] 建置自己的 Spark History Server

安裝 Spark 到遠端伺服器

Most Viewed Posts

Categories

Recent Posts

Archives

Facebook Page Widget

Contact Us

檸檬媽

檸檬爸