HBase批量加載

HBase包含幾種將數據加載到表中的方法。最直接的方法是使用MapReduce作業中的TableOutputFormat類,或者使用普通的客戶端API;然而,這些並不總是最有效的方法。

批量加載功能使用MapReduce作業以HBase的內部數據格式輸出表格數據,然後直接將生成的StoreFiles加載到正在運行的群集中。使用批量加載將比使用HBase API使用更少的CPU和網絡資源。

HBase批量加載限制


當批量加載繞過寫入路徑時,WAL不會被寫入作為過程的一部分。複製通過讀取WAL文件來工作,因此它不會看到批量加載的數據 - 對於使用Put.setDurability(SKIP_WAL)的編輯也是如此。處理這種情況的一種方法是將原始文件或HFile發送到其他群集,並在那裡進行其他處理。


分享到:


相關文章: