hive表存儲格式和數據做壓縮和解壓縮:數據分析86篇

hive表的存儲格式有

TEXTFILE

SEQUENCEFILE

三種壓縮選擇:NONE, RECORD, BLOCK。 Record壓縮率低,一般建議使用BLOCK壓縮)

RCFILE

ORC

自定義格式

hive表存儲格式是表自身的存儲結構,內部涉及存儲數據的結構,查詢方法,索引構建等等。

支持的數據都是hadoop默認支持的。

如txt格式文件,或壓縮格式zip、lzo、br2等等。

hive外部表只能直接加載這些格式的數據。

hive表存儲格式和數據做壓縮和解壓縮:數據分析86篇


數據做壓縮和解壓縮

數據做壓縮和解壓縮會增加CPU的開銷。

同時又具有可以最大程度的減少文件所需的磁盤空間網絡I/O的開銷的優點。

I/O密集型的作業使用數據壓縮

如此以來,最好對那些I/O密集型的作業使用數據壓縮。

對於cpu密集型的作業,使用壓縮會降低性能。

而hive中間結果是map輸出傳給reduce,所以應該使用低cpu開銷和高壓縮效率,一般最好使用snappy。


分享到:


相關文章: