hive on spark ,spark sql 對比測試。
1.數據源:
本測試使用2019-06-20到2019-08-20兩個月的數據,總記錄數:3232901841.
2.測試對比
3.結論
hive on spark 和spark sql測試對比。hive on spark 性能比spark sql差太多。
原因: 1.hive on spark 會把sql解析會rdd的算子,沒有經過sparksql的代碼優化過程。2.不能使用cache表,來減少IO操作,導致每條sql執行時間都很長。
閱讀更多 大數據科學家 的文章