Category: IT Technology

[Hive] Hive Server with Spark Standalone

Posted on 2023-04-122023-09-23 by 檸檬爸

在上一篇我們介紹了如何利用 MySQL 服務建立屬於自己的 Hive Metastore 資料庫，並且利用 Spark SQL 的方式對 Metastore 裡面的資料做存取，根據上方圖示，我們可以理解除了 Spark 可以對 Hive Metastore 做存儲之外，我們也可以利用 Hive, Impala, Presto, Apache Hudi 甚至是最近出來的 Apache Superset 來做資料串接，本篇想要紀錄並且比較這幾種技術的優缺點是什麼？

詳細內容

[Azure] Remote Desktop 遠端桌面

Posted on 2022-12-282023-05-07 by 檸檬爸

最近需要用到 VPN，因為某些網站有擋台灣的 IP，所以有需要遠端桌面的需求，Microsoft Azure 的 VM 可以開在世界不同的資料中心裡面，本篇紀錄一下實作在 Azure 上開出一台 Ubuntu 的 VM 安裝遠端桌面伺服器，然後利用 Microsoft Remote Desktop 遠端登入進去操作，實作方法參考的是技術文件 Install and configure xrdp to use Remote Desktop with Ubuntu。

詳細內容

[Django] Launch WSGI in Apache Server

Posted on 2022-11-202023-11-27 by 檸檬爸

Django 是一個以 Python 為基底開發網站服務的框架，近年來越來越多開發人員使用 Python 語言，所以要切入網站或者是 API 的開發，Django 會是一個很好的選擇，之前檸檬爸初學 Django 寫過一篇初淺的介紹文，後來，真正在進入 Production 階段的時候遇到一些問題，本篇紀錄在部署 Django 到 Apache Server 上的時候遇到的挑戰。

詳細內容

[Hive] 在 Spark 存取自己的 Hive Metastore

Posted on 2022-09-232023-04-12 by 檸檬爸

擁有一個自己的 Hive Metastore 的好處是方便管理自己的資料，利用 Hive Metastore 可以把資料表與大數據平台上面的資料關連起來。Hive Metastore 可以部署在不同的資料庫上面，例如 MySQL 或是 Microsoft SQL Database。

詳細內容

[Hive] Metastore in Azure Databricks

Posted on 2022-08-232022-09-23 by 檸檬爸

在開發 Spark 與 Deltalake 的應用的時候，需要建立很多的 Table 與 Database 等資源，這些 Table 的資源究竟是怎麼管理的？就是 Hive Metastore 的角色，我們在很自然使用 Spark SQL 的時候，是否真正了解背後發生了什麼事情？本篇我們紀錄如何在 Databricks 上面使用客製化的 Hive Metastore。

詳細內容

[Rapids] Enable GPU on Spark

Posted on 2022-08-062022-08-06 by 檸檬爸

最近在學習有關 Spark 跑在 GPU 上面的新技術 (Rapid) 本篇記錄一些有用的學習資源，最直接的就是看 Rapids 的 Github。但是直接看 Code 的缺點就是一下子太多資訊，所以如果能夠配合著一些概念性的影片介紹就能夠很快的了解 Rapids 的架構。

詳細內容

[Spark] 常見錯誤 NoSuchMethodError/ClassNotFound

Posted on 2022-04-142022-04-15 by 檸檬爸

檸檬爸在開發 Spark, Java, Scala 程式的時候很常遇到 NoSuchMethodError/ClassNotFound 這兩個錯誤，通常出現這兩個錯誤訊息的時候，主要原因是因為 Java Package 的 Dependency Conflict，在開發 Spark 的應用的時候究竟要怎麽去處理會比較好？本篇想要紀錄幾個常用的解法，包含Java 指令, JD-GUI 與 Maven Dependency:Tree 的介紹。

詳細內容

[Cloud] Mount NFS on Kubernetes (K8S)

Posted on 2022-01-012022-01-01 by 檸檬爸

前幾篇記錄了有關 K8S 與 Spark 的應用與一些 K8S 的常用指令，最近需要研究如何把 NFS 掛載上 K8S 裡面的 Pod，最主要的目的是要模擬出一個封閉的運算環境，在一個封閉的伺服器群集裡面，最好的分享檔案的方式就是利用像是 NAS 或是 NFS 等等的服務，本篇記錄一些在 Azure 環境裡面創造出 NFS 服務給 Kubernetes 使用遇到的一些挑戰與經驗。

詳細內容

[微軟認證] Microsoft Certification Azure AZ-104

Posted on 2021-12-102022-02-07 by 檸檬爸

由於最近需要通過 Microsoft Azure 的認證，所以持續更新這一篇文章記錄一下自己通過 Azure 認證的一些資料，可以到微軟的官網上面查詢目前擁有的認證列表。本篇記錄一下 Data Engineer Associate 與 Solution Architect Expert 這兩個角色的認證內容。

詳細內容

[Django] SynchronousOnlyOperation 解決方法

Posted on 2021-12-052021-12-05 by 檸檬爸

在使用 Django Rest Framework 開發的時候出現 SynchronousOnlyOperation 的錯誤，本篇展示一個範例紀錄筆者使用 sync_to_async 的解決方法，一開始看 sync_to_async 說明的時候並不好理解要怎麼使用，參考範例可以比較容易了解，關於 django 的一些基本介紹可以參考 [Django] 用 Python 寫網頁？

詳細內容

Category: IT Technology

[Hive] Hive Server with Spark Standalone

[Azure] Remote Desktop 遠端桌面

[Django] Launch WSGI in Apache Server

[Hive] 在 Spark 存取自己的 Hive Metastore

[Hive] Metastore in Azure Databricks

[Rapids] Enable GPU on Spark

[Spark] 常見錯誤 NoSuchMethodError/ClassNotFound

[Cloud] Mount NFS on Kubernetes (K8S)

[微軟認證] Microsoft Certification Azure AZ-104

[Django] SynchronousOnlyOperation 解決方法

Most Viewed Posts

Categories

Recent Posts

Archives

Facebook Page Widget

Contact Us

檸檬媽

檸檬爸