Search Results for: Hive

[Rapids] Support Spark SQL with Spark Rapids

Posted on 2023-09-232023-12-24 by 檸檬爸

Spark SQL 是很多公司提供給商業智慧 BI (Business Intelligence) 的大數據介面，🍋爸在介紹完 Spark Thrift Server 之後，使用者可以透過 Spark SQL 對自己的資料做操作，Spark SQL 的好處是可以很容易去滿足使用者的需求，但是往往容易遇到因為使用者執行複雜 Query 導致的效能低落，本篇想要透過導入 Spark Rapids 配合 Spark Thrift Server 引入 GPU 的資源看看是否能夠加速 Spark SQL 的運算效率？

詳細內容

[BigData] Apache Superset 安裝簡介

Posted on 2023-05-092024-02-28 by 檸檬爸

本篇想要記錄在實作安裝 Apache Superset 並且配合後端 HIVE 的資料庫進行資料呈現，一開始以為是要在 superset_config.py 內部設定SQLALCHEMY_DATABASE_URI 到指定的 Hive Server，後來了解到那是 Superset 內部 Database, Dataset 與 Charts 設定的儲存位置，本篇參考 Apache Superset 的網站實作安裝 Superset，希望對讀者有所幫助。

詳細內容

[Hadoop] Hdfs Data Integrity with Checksum

Posted on 2021-09-082021-09-24 by 檸檬爸

使用 Spark/Hadoop 生態系這麼久之後，最近才開始來研究 Hadoop 的 checksum 機制是怎麼運作的？

詳細內容

[Big Data] Hadoop 3.x v.s 2.x

Posted on 2020-12-212020-12-21 by 檸檬爸

在上一篇我們探討了 Hdfs 在 Hadoop 3.1.2 的時候要怎麼安裝？最近由於筆者需要將 Spark 2.4 升到 Spark 3.0 以上，所以順便研究並且探討 Hadoop 3.x 與 Hadoop 2.x 版本的差異，本篇主要參考的是 Data Flair 網站上面的比較差異，我們整理並且精簡 22 項差異中到最重要的 7 項。

詳細內容

[歸化之後] 常用的法國行政資源 - Dali

Posted on 2020-09-102020-09-10 by 檸檬爸

在上一篇，筆者講解了一般在法國申請法國國籍的相關資訊，這一篇想要紀錄在歸化法國公民之後常會需要常用的法國行政資源 – Dali，這是一個不起眼，也沒有華麗 UI 的網站，但是對歸化之後想要簡化法國行政手續的新法國人們確是至關重要，簡單來說 Dali 是一個可以讓你線上申請法國 Acte de Naissance, Acte de Marriage 的地方，本篇針對這個網站做一個簡單的介紹，大致可以分成文件種類與文件的形式。

詳細內容

[法文筆記] 5種法文「睡覺」的用法

Posted on 2020-06-182020-06-19 by 檸檬媽

5種法文「睡覺」的用法：
1. avoir sommeil
2. s’endormir
3. se coucher
4. dormir
5. faire la sieste

詳細內容

[Spark] 常見問題與討論

Posted on 2019-11-222020-05-13 by 檸檬爸

本篇想要持續記錄在執行 Spark, Hadoop 開發的時候所遇到的所有問題，並提供相對應的參考資料，提供一個第三方的看法當開發者在遇到類似問題的時候可以有靈感可以解決！

詳細內容

[Hdfs] 利用 FileSystem 傳資料到 Hdfs?

Posted on 2019-09-172019-09-29 by 檸檬爸

在開始做大數據的專案的時候通常都會遇到這個問題，要先把資料送到 Hdfs 上之後，資料才有可能被 Spark 等程式使用，一般來說傳送檔案到 Hdfs 可以利用以下方法，EMS/RabbitMQ, Knox Server, FTR 或是 Kafka 等等，常見的做法是透過 Knox 伺服器，由於 Hdfs 的群集是由多個 NameNode 與多個 DataNode 組成，最直接的做法是產生一個 FileSystem 直接指向 Hdfs 而不是透過 Knox，本篇要呈現如何不透過 Knox 向 Hdfs 傳送資料！

詳細內容

[Big Data] 建立 BigData 在 Local 的測試環境

Posted on 2019-08-212019-08-21 by 檸檬爸

在開發 Spark 大數據程式的時候，基本上都會遇到測試的需求，但是可能當時並沒有建立相對應的服務 Cluster 例如 Hdfs, Hive, HBase 等等的資料庫，所以在開發上面會遇到很多困難，其實 Hdfs 還算是比較好解決的，使用 FileSystem 某種程度上面還是可以利用本機的磁碟模擬 Hdfs測試其 Java 程式與 Hdfs 的溝通情況，但是如果遇到像是 Hive, HBase 等等的資料庫，在沒有真正群集的情況之下如何測試自己的程式就變得非常需要了！本篇要介紹的是一個第三方函式庫可以幫助我們單元測試 Java 的程式：

詳細內容

[HBase] HBase-2.2.0 安裝教學

Posted on 2019-08-042019-08-09 by 檸檬爸

在擁有 HDFS 這個儲存資料的平台之後，我們能夠做的應用就很多了，本篇要來介紹如何安裝 HBase 2.2.0，與 Hadoop 相同，HBase 也是使用 Java 來撰寫為主。Hadoop ecosystem 工具簡介, 安裝教學與各種情境使用系列第 10 篇裡面教學使用 HBase2.0.x，但是只支援Hadoop 2.6.1+與2.7.1+版本，使用 Hadoop-3.1.2 目前可以支援的 HBase 版本為 HBase-2.2.0 (released at 2019/06/11) 參考連結。

詳細內容

Search Results for: Hive

[Rapids] Support Spark SQL with Spark Rapids

[BigData] Apache Superset 安裝簡介

[Hadoop] Hdfs Data Integrity with Checksum

[Big Data] Hadoop 3.x v.s 2.x

[歸化之後] 常用的法國行政資源 - Dali

[法文筆記] 5種法文「睡覺」的用法

[Spark] 常見問題與討論

[Hdfs] 利用 FileSystem 傳資料到 Hdfs?

[Big Data] 建立 BigData 在 Local 的測試環境

[HBase] HBase-2.2.0 安裝教學

Most Viewed Posts

Categories

Recent Posts

Archives

Facebook Page Widget

Contact Us

檸檬媽

檸檬爸