Search Results for: Hive

[Spark] Define and Register Hive UDF with Spark Rapids

Posted on 2023-12-242023-12-28 by 檸檬爸

在上一篇我們介紹如何透過 Spark Rapids 去利用 GPU 加速執行 SQL，我們遇到了幾個問題並一一解決，最後我們成功在 Spark Thrift Server 上面啟動了 Spark Rapids 的功能，並且使用 pyHive 將 SQL 的 Request 送進 Spark Cluster 裡面，為了要更進一步完全使用 GPU 的資源，在執行 SQL command 的時候如果遇到沒有支援 Spark Rapids 的 UDF (User-Defined Function) 的時候，會拖慢整體的速度，讓使用 GPU 的效果沒有發揮出來，因此本篇想要紀錄如何實作並定義一個 Hive UDF。

詳細內容

[Hive] Index part #0 for `ROLES` already set

Posted on 2023-09-142023-09-27 by 檸檬爸

檸檬爸在前面幾篇介紹了有關 Hive Metastore, Hive on Spark 和 Spark Thrift Server 等等的觀念，本篇想要紀錄一個花了不少時間的除錯過程，錯誤發生的環境是在 Spark Standalone 的叢集上啟動的 Spark Thrift Server 嘗試去連接在 MySQL 上的 Hive Metastore，成功使用一段時間之後會時不時地遇到這個 Bug，後來的解決方法是重新創建 MySQL 的使用者。

詳細內容

[Hive] Hive Server with Spark Standalone

Posted on 2023-04-122023-09-23 by 檸檬爸

在上一篇我們介紹了如何利用 MySQL 服務建立屬於自己的 Hive Metastore 資料庫，並且利用 Spark SQL 的方式對 Metastore 裡面的資料做存取，根據上方圖示，我們可以理解除了 Spark 可以對 Hive Metastore 做存儲之外，我們也可以利用 Hive, Impala, Presto, Apache Hudi 甚至是最近出來的 Apache Superset 來做資料串接，本篇想要紀錄並且比較這幾種技術的優缺點是什麼？

詳細內容

[Hive] 在 Spark 存取自己的 Hive Metastore

Posted on 2022-09-232023-04-12 by 檸檬爸

擁有一個自己的 Hive Metastore 的好處是方便管理自己的資料，利用 Hive Metastore 可以把資料表與大數據平台上面的資料關連起來。Hive Metastore 可以部署在不同的資料庫上面，例如 MySQL 或是 Microsoft SQL Database。

詳細內容

[Hive] Metastore in Azure Databricks

Posted on 2022-08-232022-09-23 by 檸檬爸

在開發 Spark 與 Deltalake 的應用的時候，需要建立很多的 Table 與 Database 等資源，這些 Table 的資源究竟是怎麼管理的？就是 Hive Metastore 的角色，我們在很自然使用 Spark SQL 的時候，是否真正了解背後發生了什麼事情？本篇我們紀錄如何在 Databricks 上面使用客製化的 Hive Metastore。

詳細內容

[Hive/HBase] 如何串接 Hive/HBase 資料庫

Posted on 2020-03-312022-09-23 by 檸檬爸

一般來說在視覺化資料庫的方法一般來說如果是 Hive 資料庫可以透過 DBeaver 等等類似 SQL Client 的程式來顯現，但是如果是像是 HBase 的資料庫的話基本上很難快速了解 HBase 裡面存取的檔案全貌，如果可以利用 Hive 用表格的方式呈現的話會比較好理解，本篇想要介紹如何將 HBase 利用 Hive 呈現出來！

詳細內容

[Hive] 常用的 UDF 指令

Posted on 2019-09-042019-09-15 by 檸檬爸

當我們下指令詢問 Hive 的資料庫的時候，在比較進階的情況中，常常會遇到一些複雜的資料結構(struct)，例如 array, map, array, map 等等。本篇的目的是整理一些常用的 Hive 的指令可以幫助我們處理複雜的資料結構。

詳細內容

[Hive] 內部與外部表 Internal/External Table

Posted on 2019-07-162019-09-04 by 檸檬爸

Hive 有分所謂內部表與外部表，今天就要來討論究竟這兩個表有什麼差別？又應該在哪一個情況下使用？

詳細內容

[GPU] Native Rapids UDF – Compilation Environment

Posted on 2024-01-162024-01-18 by 檸檬爸

上一篇我們介紹了如何利用 cudf C++ 創建自己可以跑在 GPU 上面的 UDF，本篇我們想要紀錄如何利用 Spark Rapids Examples 提供的編譯環境建造出屬於自己的 jar 可以跑在有 GPU 的 Spark 叢集運算之上。

詳細內容

[GPU] Native Rapids UDF – Create Custom UDF

Posted on 2024-01-082024-02-20 by 檸檬爸

在上一篇我們成功實作了 HiveUDF，為了要進一步利用 GPU 加速，我們需要去實作 evaluateColumnar 這一個函數，參考 Spark Rapids 的 Github 與 ColumnView 裡面的範例，針對我們想做到的 UDF 我們沒有發現適合的函數去實作針對一個 Array[String] 的過濾程式，所以我們需要自己去實作 Tutorial 裡面所謂的 Native Code Examples，Tutorial 裡面針對 HiveUDF 只有提供一個範例是 StringWordCount，本篇我們紀錄藉由這個範例去實作一個支援 GPU 的 HiveUDF。

詳細內容

Search Results for: Hive

[Spark] Define and Register Hive UDF with Spark Rapids

[Hive] Index part #0 for `ROLES` already set

[Hive] Hive Server with Spark Standalone

[Hive] 在 Spark 存取自己的 Hive Metastore

[Hive] Metastore in Azure Databricks

[Hive/HBase] 如何串接 Hive/HBase 資料庫

[Hive] 常用的 UDF 指令

[Hive] 內部與外部表 Internal/External Table

[GPU] Native Rapids UDF – Compilation Environment

[GPU] Native Rapids UDF – Create Custom UDF

Most Viewed Posts

Categories

Recent Posts

Archives

Facebook Page Widget

Contact Us

檸檬媽

檸檬爸