Search Results for: Hive

[Rapids] Support Spark SQL with Spark Rapids

Spark SQL 是很多公司提供給商業智慧 BI (Business Intelligence) 的大數據介面,🍋爸在介紹完 Spark Thrift Server 之後,使用者可以透過 Spark SQL 對自己的資料做操作,Spark SQL 的好處是可以很容易去滿足使用者的需求,但是往往容易遇到因為使用者執行複雜 Query 導致的效能低落,本篇想要透過導入 Spark Rapids 配合 Spark Thrift Server 引入 GPU 的資源看看是否能夠加速 Spark SQL 的運算效率?

詳細內容

[BigData] Apache Superset 安裝簡介

本篇想要記錄在實作安裝 Apache Superset 並且配合後端 HIVE 的資料庫進行資料呈現,一開始以為是要在 superset_config.py 內部設定SQLALCHEMY_DATABASE_URI 到指定的 Hive Server,後來了解到那是 Superset 內部 Database, Dataset 與 Charts 設定的儲存位置,本篇參考 Apache Superset 的網站實作安裝 Superset,希望對讀者有所幫助。

詳細內容

[歸化之後] 常用的法國行政資源 - Dali

在上一篇,筆者講解了一般在法國申請法國國籍的相關資訊,這一篇想要紀錄在歸化法國公民之後常會需要常用的法國行政資源 – Dali,這是一個不起眼,也沒有華麗 UI 的網站,但是對歸化之後想要簡化法國行政手續的新法國人們確是至關重要,簡單來說 Dali 是一個可以讓你線上申請法國 Acte de Naissance, Acte de Marriage 的地方,本篇針對這個網站做一個簡單的介紹,大致可以分成文件種類與文件的形式。

詳細內容

[Hdfs] 利用 FileSystem 傳資料到 Hdfs?

在開始做大數據的專案的時候通常都會遇到這個問題,要先把資料送到 Hdfs 上之後,資料才有可能被 Spark 等程式使用,一般來說傳送檔案到 Hdfs 可以利用以下方法,EMS/RabbitMQ, Knox Server, FTR 或是 Kafka 等等,常見的做法是透過 Knox 伺服器,由於 Hdfs 的群集是由多個 NameNode 與多個 DataNode 組成,最直接的做法是產生一個 FileSystem 直接指向 Hdfs 而不是透過 Knox,本篇要呈現如何不透過 Knox 向 Hdfs 傳送資料!

詳細內容

[Big Data] 建立 BigData 在 Local 的測試環境

在開發 Spark 大數據程式的時候,基本上都會遇到測試的需求,但是可能當時並沒有建立相對應的服務 Cluster 例如 Hdfs, Hive, HBase 等等的資料庫,所以在開發上面會遇到很多困難,其實 Hdfs 還算是比較好解決的,使用 FileSystem 某種程度上面還是可以利用本機的磁碟模擬 Hdfs測試其 Java 程式與 Hdfs 的溝通情況,但是如果遇到像是 Hive, HBase 等等的資料庫,在沒有真正群集的情況之下如何測試自己的程式就變得非常需要了!本篇要介紹的是一個第三方函式庫可以幫助我們單元測試 Java 的程式:

詳細內容

[HBase] HBase-2.2.0 安裝教學

在擁有 HDFS 這個儲存資料的平台之後,我們能夠做的應用就很多了,本篇要來介紹如何安裝 HBase 2.2.0,與 Hadoop 相同,HBase 也是使用 Java 來撰寫為主。Hadoop ecosystem 工具簡介, 安裝教學與各種情境使用系列 第 10 篇裡面教學使用 HBase2.0.x,但是只支援Hadoop 2.6.1+與2.7.1+版本,使用 Hadoop-3.1.2 目前可以支援的 HBase 版本為 HBase-2.2.0 (released at 2019/06/11) 參考連結。

詳細內容