VCF – Variant Calling Format 基因變異儲存格式
生物資訊領域是近幾年來很熱門的一個領域,本篇紀錄有關 VCF – Variant Calling Format 基因變異儲存格式檔案的處理過程,有關於 VCF 的簡單介紹可以參考連結,也可以參考 Wikipedia 裡面關於 VCF 的介紹,一個 VCF 檔案大致上長成以下的樣子
詳細內容想方涉法, France, Taiwan, Health, Information Technology
生物資訊領域是近幾年來很熱門的一個領域,本篇紀錄有關 VCF – Variant Calling Format 基因變異儲存格式檔案的處理過程,有關於 VCF 的簡單介紹可以參考連結,也可以參考 Wikipedia 裡面關於 VCF 的介紹,一個 VCF 檔案大致上長成以下的樣子
詳細內容介紹另外一個 Python 套件用於套件管理 – Poetry,相較於 pip 的管理方式,poetry 的好處在於當我們刪除掉某一個不需要的 package 的時候,我們可以也把其他相關但是不需要的套件一併刪除,由此可以精簡真正需要的 Python 套件,不會過度增加不必要的 python 套件,以下我們舉實例演釋。
詳細內容隨著運算需求的增加,無可避免地要進入公有雲的領域,本篇想要整理一下 Azure 在雲端運算提供的方案但是最終專注在 Azure Batch (AZTK) 的介紹,根據 (連結) Azure 在對於 Batch 批次計算的需求大致上有幾個解決方案。
詳細內容一般來說在視覺化資料庫的方法一般來說如果是 Hive 資料庫可以透過 DBeaver 等等類似 SQL Client 的程式來顯現,但是如果是像是 HBase 的資料庫的話基本上很難快速了解 HBase 裡面存取的檔案全貌,如果可以利用 Hive 用表格的方式呈現的話會比較好理解,本篇想要介紹如何將 HBase 利用 Hive 呈現出來!
詳細內容在大數據的平台上開發大數據應用的時候,如果想要自動化執行不同的 Spark 腳本的話,很常會使用 Apache Oozie 這個軟體,如果想要配合一些 Continuous Delivery 的工具如 Jenkins 和 TeamCity 來使用的時候,需要透過 Oozie 的 WebAPI 來使用,有兩種主要的使用方法,一種是利用 Shell Script 下達 Curl 的指令快速溝通,另一種方式則是利用 Oozie 專案開發的 OozieClient 配合 groovy 或是 Java 的指令運行。
詳細內容Join 是一個在關聯性資料庫裡面很常使用的一個運算元,在大數據資料庫慢慢普及的今天,Join 還是一個幫助我們了解資料關係不可或缺的角色,今天想要討論的是在 Spark 裡面 Join 背後執行的運算原理,筆者在執行 Spark 工作的時候,有時候需要優化資料的運算過程以降低運算所需要的時間,本篇的資料來源可以參考連結,另外筆者也很建議大家觀看以下這一個 Youtube 影片。
詳細內容在開始做大數據的專案的時候通常都會遇到這個問題,要先把資料送到 Hdfs 上之後,資料才有可能被 Spark 等程式使用,一般來說傳送檔案到 Hdfs 可以利用以下方法,EMS/RabbitMQ, Knox Server, FTR 或是 Kafka 等等,常見的做法是透過 Knox 伺服器,由於 Hdfs 的群集是由多個 NameNode 與多個 DataNode 組成,最直接的做法是產生一個 FileSystem 直接指向 Hdfs 而不是透過 Knox,本篇要呈現如何不透過 Knox 向 Hdfs 傳送資料!
詳細內容在開發 Spark 大數據程式的時候,基本上都會遇到測試的需求,但是可能當時並沒有建立相對應的服務 Cluster 例如 Hdfs, Hive, HBase 等等的資料庫,所以在開發上面會遇到很多困難,其實 Hdfs 還算是比較好解決的,使用 FileSystem 某種程度上面還是可以利用本機的磁碟模擬 Hdfs測試其 Java 程式與 Hdfs 的溝通情況,但是如果遇到像是 Hive, HBase 等等的資料庫,在沒有真正群集的情況之下如何測試自己的程式就變得非常需要了!本篇要介紹的是一個第三方函式庫可以幫助我們單元測試 Java 的程式:
詳細內容Post Views: 2,908 在利用 Tensorflow 或是 Python 處理大數據的時候,不免會接觸到以下這些資源庫(Pandas, Numpy, Scikit, ndArray, Keras),搞懂與好好利用他們是很重要的事情: Pandas 在 Python 中的角色主要是提供使用者可以取得 DataFrame 的執行程序, import pandas
詳細內容