[二戰遺址] La Coupole Museum

La Coupole 在法文是圓頂的意思,在巴黎有 La Coupole 餐廳,在北法介於里爾 (Lille) 與敦克爾克 (Dunkerque) 之間的 Saint Omer 有一個當年納粹想要攻擊倫敦建造的 V2 火箭飛彈發射基地,因為圓頂的外型也被命名為 La Coupole,二戰時期,英倫三島孤懸於歐洲大陸之外,希特勒一直拿不下來,於是德國飛彈之父 Wernher von Braun 的領導之下建立了圓頂飛彈發射場,企圖利用長程飛彈攻擊倫敦,最後沒有成功,本篇有機會帶著兩個小檸檬去參觀這個二戰遺址 La Coupole Museum,利用這篇記錄下來這次有趣的旅程?

詳細內容

[垃圾稅] Taxe Ordures Ménagères

以前在法國租屋都是透過 Facebook 社群或是認識的人介紹,最近這次檸檬爸在法國找房子透過的是 Agence Immobilier 房屋仲介公司,果然是一個不一樣的體驗,有專業的房仲參與看到了一些不同的面向,其實整個流程大同小異,但是還是有些許的值得被記錄下來,本篇想要介紹的是包含在 Taxe Foncières 裡面的 Taxe Ordures Ménagères 俗稱垃圾稅,這筆費用房東是有權利要求房客支付的。

詳細內容

[France] 法國幼兒園小學營養午餐吃什麼?

兩小檸檬九月開始了他們在法國學校的上學人生,不像台灣是每個月每個月出營養午餐的菜單,法國這邊比較是以假期做為區隔,從九月開學一次釋出菜單到 Toussaint (也就是法國的清明節),本篇分享一份法國小學的菜單,即便檸檬爸已經身經百戰了,面對博大精深的法式料理還是有很多餐點名稱看不懂,真的是學海無涯呀!觀察本份菜單,發現幾個特色,以下特別介紹一下。

詳細內容
apache-spark

[BigData] 客製化 Apache Spark 在 ARM64 架構上

在創建以 Spark 為基礎的應用程式的時候,基本上都會直接下載 Spark 官網打包好的程式碼,在官網上的 Spark 是以 Intel x86 架構為主的,由於 Java 並沒有架構上的差異,所以之前在 Spark K8S 並沒有遇到一樣的問題,但是在一次實務上驅動 Spark Standalone 的時候遇到以下的錯誤訊息,主要是跟 External Shuffle Service 有關,這個錯誤並不會出現在以 Spark K8S 為方式驅動的應用,但是 External Shuffle Manager 會遇到,所以筆者才會需要利用 Spark 提供的 make-distribution.sh 檔案去重新打包 Apache Spark 在 ARM64 架構上。

詳細內容

[GPU] 加速主成分分析 (PCA)

檸檬爸幾年前有分享過一篇主成分分析 (Principle Component Analysis) 原理的文章,由於 PCA 其實就是矩陣的運算,所以非常適合使用分散式運算來做加速,不論是 Spark 或是 GPU 的架構都很適合,Spark MLlib 本身就可以加速 PCA 等機器學習的運算,使用 cuML + GPU 根據 Nvidia Blog 的數據,加速的效果更加明顯,本篇想要紀錄如何導入 GPU 到 PCA 等等傳統的機器學習運算?

詳細內容

[CICD] Deploy Nexus on AWS

檸檬爸在 2021 年的時候寫過一篇有關 Nexus 的文章,那時使用的是 Nexus Open Source 的版本,自己部署在 Azure 的 App Service 上面,後來一些緣故研究了雲端的方案,本來是想要託管 Nexus 成一個 Saas 的服務,但是由於價錢太貴,所以還是走雲端自己管理的模式,不過嘗試把 Nexus 從 App Service 搬出來到一個 dedicated VM,本篇紀錄的是使用 AWS 作為雲端服務商部署 Sonaytype Nexus Repository 的服務。

詳細內容
apache-spark

[BigData] 實作 Spark 將 MSSQL 檔案平行匯出

Spark 2.1.0 之後,JDBC (Java Database Connectivity) 被引入作為一個 Spark 應用的其中一種輸入,在數位轉型的過程中我們很常需要將企業中的資料倉儲匯入資料湖庫,為了省去資料轉換的功夫,最好的方法就是直接將 RDBMS 的資料直接轉進 Datalake 裡面,本篇希望紀錄在 Spark 3.3.0 環境中將 MSSQL 的巨量資料轉移到地端的資料湖庫中的過程與 TroubleShooting。

詳細內容

[GCP] Spark Hadoop Access with Requester Pays

在生醫領域有很多開放資料都是存在 Google Cloud Platform (GCP),有時候要避免大量複製檔案,我們會想要直接使用 gs:// 開頭的開放資料當作 Spark Table 的後端路徑,與 AWS 與 Azure 不同的是 GCP Dataproc 提供了一個使用者付費的方式,顧名思義就是資料的傳輸費用是由使用者去支付的,本篇紀錄如何設定 Spark Cluster 的設定檔透過 Spark SQL 的方式直接使用公開的資料,減少複製檔案與儲存帶來的成本。

詳細內容

在 K8S 上簡單實現 Nvidia GPU Time-Slicing

Nvidia 的 GPU 目前是市場上使用的主流,在雲的世界裡面,由於大部分的使用場景是按需 (On Demand),因此 K8S 慢慢地也是雲端管理資源的一個利器,如何在 Kubernetes 上調用 GPU 的資源相對地也越來越普遍,本篇整理了目前網路上可以看到 Nvidia GPU 於操作方法,並且介紹一種簡單實現 GPU Time-Slicing 的設定。

詳細內容