hive表的存儲格式有
TEXTFILE
SEQUENCEFILE
(三種壓縮選擇:NONE, RECORD, BLOCK。 Record壓縮率低,一般建議使用BLOCK壓縮)
RCFILE
ORC
自定義格式
hive表存儲格式是表自身的存儲結構,內部涉及存儲數據的結構,查詢方法,索引構建等等。
支持的數據都是hadoop默認支持的。
如txt格式文件,或壓縮格式zip、lzo、br2等等。
hive外部表只能直接加載這些格式的數據。
數據做壓縮和解壓縮
數據做壓縮和解壓縮會增加CPU的開銷。
同時又具有可以最大程度的減少文件所需的磁盤空間和網絡I/O的開銷的優點。
I/O密集型的作業使用數據壓縮
如此以來,最好對那些I/O密集型的作業使用數據壓縮。
對於cpu密集型的作業,使用壓縮會降低性能。
而hive中間結果是map輸出傳給reduce,所以應該使用低cpu開銷和高壓縮效率,一般最好使用snappy。
閱讀更多 熱忱先生 的文章