12.25 Hive使用場景分析，及實踐優化

2019-12-25 11:18:47 編程我最懂

概述

Hive學習也有一段時間了，今天來對Hive進行一個總結，結合自己在工作中遇到的問題，做一些具體的案例分析，當然其中有自己考慮不周的地方，或有不對的地方請大家指出相互學習，共同進步。今天來談一談什麼是Hive，產生背景，優勢等一系列問題。

什麼是Hive

Hive是一個構建在Hadoop之上的數據倉庫軟件,它可以使已經存儲的數據結構化，它提供類似sql的查詢語句HiveQL對數據進行分析處理。 Hive將HiveQL語句轉換成一系列成MapReduce作業並執行（SQL轉化為MapReduce的過程你知道嗎？）。用戶可以很方便的使用命令行和JDBC程序的方式來連接到hive。目前，Hive除了支持MapReduce計算引擎，還支持Spark和Tez這兩中分佈式計算引擎。常用於離線批處理。（Hive On Spark 還是試驗版本）

Hive的產生背景

大數據的時代，海量的數據對於傳統的關係型數據庫來說維護起來成本非常高，那該如何是好，Hadoop分佈式的框架，可以使用廉價的機器部署分佈式系統把數據存儲在HDFS之上，通過MR進行計算，分析，這樣是可以的，但是，MR大家應該知道，MapReduce編程帶來的不便性，編程十分繁瑣，在大多情況下，每個MapReduce程序需要包含Mapper、Reduce和一個Driver，之後需要打成jar包扔到集群上運行。如果mr寫完之後，且該項目已經上線，一旦業務邏輯發生了改變，可能就會帶來大規模的改動代碼，然後重新打包，發佈，非常麻煩(這種方式，也是最古老的方式)

當大量數據都存放在HDFS上，如何快速的對HDFS上的文件進行統計分析操作？

一般來說，想要做會有兩種方式：

學Java、學MapReduce(十分麻煩)
做DBA的：寫SQL(希望能通過寫SQL這樣的方式來實現，這種方式較好)

然而，HDFS中最關鍵的一點就是，數據存儲HDFS上是沒有schema的概念的(schema:相當於表裡面有列、字段、字段名稱、字段與字段之間的分隔符等，這些就是schema信息)然而HDFS上的僅僅只是一個純的文本文件而已，那麼，沒有schema，就沒辦法使用sql進行查詢了啊。。。因此，在這種背景下，就有問題產生：如何為HDFS上的文件添加Schema信息？如果加上去，是否就可以通過SQL的方式進行處理了呢？於是強大的Hive出現了。

Hive深入剖析

再來看看官網給我們的介紹：

官方第一句話就說明了Apache Hive 是構建在Apache Hadoop之上的數據倉庫。有助於對大型的數據集進行讀、寫和管理。

那我們先對這句話進行剖析：

首先Hive是構建在Hadoop之上的，其實就是Hive中的數據其實是存儲再HDFS上的（加上LOCAL關鍵字則是在本地），默認在/user/hive/warehouse/table,有助於對大型數據集進行讀、寫和管理，那也就是意味著傳統的關係型數據庫已經無法滿足現在的數據量了，需要一個更大的倉庫來幫助我們存儲，這裡也引出一個問題：Hive和關係型數據庫的區別

，後面我們再來聊。

Hive的特徵：

1.可通過SQL輕鬆訪問數據的工具，從而實現數據倉庫任務，如提取/轉換/加載（ETL），報告和數據分析。

2.它可以使已經存儲的數據結構化

3.可以直接訪問存儲在Apache HDFS™或其他數據存儲系統（如Apache HBase™）中的文件

4.Hive除了支持MapReduce計算引擎，還支持Spark和Tez這兩中分佈式計算引擎（這裡會引申出一個問題，哪些查詢跑mr哪些不跑？）

5.它提供類似sql的查詢語句HiveQL對數據進行分析處理。

6. 數據的存儲格式有多種，比如數據源是二進制格式，普通文本格式等等

而hive強大之處不要求數據轉換成特定的格式，而是利用hadoop本身InputFormat API來從不同的數據源讀取數據，同樣地使用OutputFormat API將數據寫成不同的格式。所以對於不同的數據源，或者寫出不同的格式就需要不同的對應的InputFormat和Outputformat類的實現。

以stored as textfile為例，其在底層java API中表現是輸入InputFormat格式:TextInputFormat以及輸出OutputFormat格式:HiveIgnoreKeyTextOutputFormat.這裡InputFormat中定義瞭如何對數據源文本進行讀取劃分，以及如何將切片分割成記錄存入表中。而Outputformat定義瞭如何將這些切片寫回到文件裡或者直接在控制檯輸出。

不僅如此Hive的SQL還可以通過用戶定義的函數（UDF），用戶定義的聚合（UDAF）和用戶定義的表函數（UDTF）進行擴展。（幾個函數之間的區別）

Hive中不僅可以使用逗號和製表符分隔值（CSV / TSV）文本文件，還可以使用Sequence File、RC、ORC、Parquet （知道這幾種存儲格式的區別），

當然Hive還可以通過用戶來自定義自己的存儲格式，基本上前面說的到的幾種格式完全夠了。

Hive旨在最大限度地提高可伸縮性（通過向Hadoop集群動態添加更多機器擴展），性能，可擴展性，容錯性以及與其輸入格式的鬆散耦合。

Hive基本語法

該篇文章主要講解Hive底層的東西和一些優化。

DDL
DML
基本HQL
內置函數和基本的UDF函數

UDF函數這裡要進行一個講解UDF、DUAF、UDTF分別是啥。

我們知道Hive的SQL還可以通過用戶定義的函數（UDF），用戶定義的聚合（UDAF）和用戶定義的表函數（UDTF）進行擴展。

當Hive提供的內置函數無法滿足你的業務處理需要時，此時就可以考慮使用用戶自定義函數（UDF：user-defined function）。　　

UDF(User-Defined-Function) 一進一出

UDAF(User- Defined Aggregation Funcation) 聚集函數，多進一出。

UDTF(User-Defined Table-Generating Functions) 一進多出，如lateral view explore()

Hive於關係型數據庫的區別

時效性、延時性比較高，可擴展性高；

Hive數據規模大，優勢在於處理大數據集，對於小數據集沒有優勢

事務沒什麼用(比較雞肋，沒什麼實際的意義，對於離線的來說) 一個小問題：那個版本開始提供了事務？

insert/update沒什麼實際用途，大數據場景下大多數是select

RDBMS也支持分佈式，節點有限成本高，處理的數據量小

Hadoop集群規模更大部署在廉價機器上，處理的數據量大

數據庫可以用在Online的應用中，Hive主要進行離線的大數據分析；

數據庫的查詢語句為SQL，Hive的查詢語句為HQL；

數據庫數據存儲在LocalFS，Hive的數據存儲在HDFS；

數據格式:Hive中有多種存儲格式：由於在加載數據的過程中，不需要從用戶數據格式到 Hive 定義的數據格式的轉換，

因此，Hive 在加載的過程中不會對數據本身進行任何修改，而只是將數據內容複製或者移動到相應的 HDFS 目錄中。

而在數據庫中，不同的數據庫有不同的存儲引擎，定義了自己的數據格式。所有數據都會按照一定的組織存儲，因此，

數據庫加載數據的過程會比較耗時。

Hive執行MapReduce，MySQL執行Executor；

Hive的優點

1.簡單易上手

2.擴展能力較好(指集群 HDFS或是YARN)

3.統一的元數據管理 metastore包括的了數據庫，表，字段分區等詳細信息

4.由於統一的元數據管理所以和spark/impala等SQL引擎是通用的

通用是指，在擁有了統一的metastore之後，在Hive中創建一張表，在Spark/impala中是能用的，反之在Spark中創建一張表，

在Hive中也能用；只需要共用元數據，就可以切換SQL引擎

涉及到了Spark sql 和Hive On Spark(實驗版本)

5.使用SQL語法，提供快速開發的能力，支持自定義函數UDF。

6.避免了去寫mapreduce，減少開發人員學習成本。

7.數據離線處理，比如日誌分析，海量數據結構化分析

SQL轉化為MapReduce的過程

瞭解了MapReduce實現SQL基本操作之後，我們來看看Hive是如何將SQL轉化為MapReduce任務的，整個編譯過程分為六個階段：

Antlr定義SQL的語法規則，完成SQL詞法，語法解析，將SQL轉化為抽象語法樹AST Tree

遍歷AST Tree，抽象出查詢的基本組成單元QueryBlock

遍歷QueryBlock，翻譯為執行操作樹OperatorTree

邏輯層優化器進行OperatorTree變換，合併不必要的ReduceSinkOperator，減少shuffle數據量

遍歷OperatorTree，翻譯為MapReduce任務

物理層優化器進行MapReduce任務的變換，生成最終的執行計劃

Hive內部表和外部表的區別

未被external修飾的是內部表（managed table），被external修飾的為外部表（external table）；

區別：

內部表數據由Hive自身管理，外部表數據由HDFS管理；

內部表數據存儲的位置是hive.metastore.warehouse.dir（默認：/user/hive/warehouse），外部表數據的存儲位置由自己制定；

刪除內部表會直接刪除元數據（metadata）及存儲數據；刪除外部表僅僅會刪除元數據，HDFS上的文件並不會被刪除；

行式存儲vs列式存儲

行式數據庫存儲在hdfs上式按行進行存儲的，一個block存儲一或多行數據。而列式數據庫在hdfs上則是按照列進行存儲，一個block可能有一列或多列數據。

如果要將數據進行壓縮：

對於行式數據庫，必然按行壓縮，當一行中有多個字段，各個字段對應的數據類型可能不一致，壓縮性能壓縮比就比較差。
對於列式數據庫，必然按列壓縮，每一列對應的是相同數據類型的數據，故列式數據庫的壓縮性能要強於行式數據庫。

如果要進行數據的查詢：

假設執行的查詢操作是：select id,name from table_emp;

對於行式數據庫，它要遍歷一整張表將每一行中的id,name字段拼接再展現出來，這樣需要查詢的數據量就比較大，效率低。

對於列式數據庫，它只需找到對應的id,name字段的列展現出來即可，需要查詢的數據量小，效率高。

假設執行的查詢操作是：select * from table_emp;

對於這種查詢整個表全部信息的操作，由於列式數據庫需要將分散的行進行重新組合，行式數據庫效率就高於列式數據庫。

但是，在大數據領域，進行全表查詢的場景少之又少，進而我們使用較多的還是列式數據庫及列式儲存。

Hive哪些查詢會執行mr

hive 0.10.0為了執行效率考慮，簡單的查詢，就是隻是select，不帶count,sum,group by這樣的，都不走map/reduce，直接讀取hdfs文件進行filter過濾。

這樣做的好處就是不新開mr任務，執行效率要提高不少，但是不好的地方就是用戶界面不友好，有時候數據量大還是要等很長時間，但是又沒有任何返回。

改這個很簡單，在hive-site.xml裡面有個配置參數叫

hive.fetch.task.conversion將這個參數設置為more，簡單查詢就不走map/reduce了，設置為minimal，就任何簡單select都會走map/reduce

Create Table As Select (CTAS) 走mr

create table emp2 as select * from emp;

insert一條或者多條走mr

Hive靜態分區動態分區

分區的概念

Hive的分區方式：由於Hive實際是存儲在HDFS上的抽象，Hive的一個分區名對應HDFS上的一個目錄名，子分區名就是子目錄名，並不是一個實際字段。

分區的好處

產生背景：如果一個表中數據很多，我們查詢時就很慢，耗費大量時間，如果要查詢其中部分數據該怎麼辦呢，這是我們引入分區的概念。

Partition:分區，每張表中可以加入一個分區或者多個，方便查詢，提高效率；並且HDFS上會有對應的分區目錄：

語法：

Hive分區是在創建表的時候用Partitioned by 關鍵字定義的，但要注意，Partitioned by子句中定義的列是表中正式的列，

但是Hive下的數據文件中並不包含這些列，因為它們是目錄名，真正的數據在分區目錄下。

靜態分區和動態分區的區別

創建表的語法都一樣

靜態分區：加載數據的時候要指定分區的值（key=value），比較麻煩的是每次插入數據都要指定分區的值，創建多個分區多分區一樣，以逗號分隔。

動態分區：如果用上述的靜態分區，插入的時候必須首先要知道有什麼分區類型，而且每個分區寫一個load data，太煩人。使用動態分區可解決以上問題，其可以根據查詢得到的數據動態分配到分區裡。其實動態分區與靜態分區區別就是不指定分區目錄，由系統自己選擇。

首先，啟動動態分區功能

hive> set hive.exec.dynamic.partition=true;

採用動態方式加載數據到目標表

加載之前先設置一下下面的參數

hive (default)> set hive.exec.dynamic.partition.mode=nonstrict

開始加載

insert into table emp_dynamic_partition partition(deptno)

select empno , ename , job , mgr , hiredate , sal , comm, deptno from emp;

加載數據方式並沒有指定具體的分區，只是指出了分區字段。

在select最後一個字段必須跟你的分區字段，這樣就會自行根據deptno的value來分區。

刪除分區：

ALTER TABLE my_partition_test_table DROP IF EXISTS PARTITION (day='2019-10-06');

Hive優化

1.我們知道大數據場景下不害怕數據量大，害怕的是數據傾斜，怎樣避免數據傾斜，找到可能產生數據傾斜的函數尤為關鍵，數據量較大的情況下，慎用count(distinct)，count(distinct)容易產生傾斜問題。

2.設置合理的map reduce 的task數量

map階段優化

mapred.min.split.size: 指的是數據的最小分割單元大小；min的默認值是1B

mapred.max.split.size: 指的是數據的最大分割單元大小；max的默認值是256MB

通過調整max可以起到調整map數的作用，減小max可以增加map數，增大max可以減少map數。

需要提醒的是，直接調整mapred.map.tasks這個參數是沒有效果的。

舉例：

a) 假設input目錄下有1個文件a,大小為780M,那麼hadoop會將該文件a分隔成7個塊（6個128m的塊和1個12m的塊），從而產生7個map數

b) 假設input目錄下有3個文件a,b,c,大小分別為10m，20m，130m，那麼hadoop會分隔成4個塊（10m,20m,128m,2m）,從而產生4個map數

即，如果文件大於塊大小(128m),那麼會拆分，如果小於塊大小，則把該文件當成一個塊。

其實這就涉及到小文件的問題：如果一個任務有很多小文件（遠遠小於塊大小128m）,則每個小文件也會被當做一個塊，用一個map任務來完成，

而一個map任務啟動和初始化的時間遠遠大於邏輯處理的時間，就會造成很大的資源浪費。

而且，同時可執行的map數是受限的。那麼問題又來了。。是不是保證每個map處理接近128m的文件塊，就高枕無憂了？

答案也是不一定。比如有一個127m的文件，正常會用一個map去完成，但這個文件只有一個或者兩個小字段，卻有幾千萬的記錄，

如果map處理的邏輯比較複雜，用一個map任務去做，肯定也比較耗時。

我們該如何去解決呢？

我們需要採取兩種方式來解決：即減少map數和增加map數；

減少map數量

假設一個SQL任務：

Select count(1) from popt_tbaccountcopy_mes where pt = ‘2012-07-04’;

該任務的inputdir /group/p_sdo_data/p_sdo_data_etl/pt/popt_tbaccountcopy_mes/pt=2012-07-04

共有194個文件，其中很多是遠遠小於128m的小文件，總大小9G，正常執行會用194個map任務。

Map總共消耗的計算資源： SLOTS_MILLIS_MAPS= 623,020

我通過以下方法來在map執行前合併小文件，減少map數：

set mapred.max.split.size=100000000;

set mapred.min.split.size.per.node=100000000;

set mapred.min.split.size.per.rack=100000000;

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

再執行上面的語句，用了74個map任務，map消耗的計算資源：SLOTS_MILLIS_MAPS= 333,500

對於這個簡單SQL任務，執行時間上可能差不多，但節省了一半的計算資源。

大概解釋一下，100000000表示100M, set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;這個參數表示執行前進行小文件合併，前面三個參數確定合併文件塊的大小，大於文件塊大小128m的，按照128m來分隔，小於128m,大於100m的，按照100m來分隔，把那些小於100m的（包括小文件和分隔大文件剩下的），進行合併,最終生成了74個塊。

增大map數量

如何適當的增加map數？

當input的文件都很大，任務邏輯複雜，map執行非常慢的時候，可以考慮增加Map數，

來使得每個map處理的數據量減少，從而提高任務的執行效率。

假設有這樣一個任務：

select data_desc,count(1), count(distinct id),sum(case when …),sum(case when ...),sum(…)

from a group by data_desc

如果表a只有一個文件，大小為120M，但包含幾千萬的記錄，如果用1個map去完成這個任務，

肯定是比較耗時的，這種情況下，我們要考慮將這一個文件合理的拆分成多個，

這樣就可以用多個map任務去完成。

set mapred.reduce.tasks=10;

create table a_1 as select * from a distribute by rand(123);

這樣會將a表的記錄，隨機的分散到包含10個文件的a_1表中，再用a_1代替上面sql中的a表，則會用10個map任務去完成。

每個map任務處理大於12M（幾百萬記錄）的數據，效率肯定會好很多。

看上去，貌似這兩種有些矛盾，一個是要合併小文件，一個是要把大文件拆成小文件，這點正是重點需要關注的地方，使單個map任務處理合適的數據量；

reduce階段優化

Reduce的個數對整個作業的運行性能有很大影響。如果Reduce設置的過大，那麼將會產生很多小文件，

對NameNode會產生一定的影響，

而且整個作業的運行時間未必會減少；如果Reduce設置的過小，那麼單個Reduce處理的數據將會加大，

很可能會引起OOM異常。

如果設置了mapred.reduce.tasks/mapreduce.job.reduces參數，那麼Hive會直接使用它的值作為Reduce的個數；

如果mapred.reduce.tasks/mapreduce.job.reduces的值沒有設置（也就是-1），那麼Hive會

根據輸入文件的大小估算出Reduce的個數。

根據輸入文件估算Reduce的個數可能未必很準確，因為Reduce的輸入是Map的輸出，而Map的輸出可能會比輸入要小，

所以最準確的數根據Map的輸出估算Reduce的個數。

Hive自己如何確定reduce數：

reduce個數的設定極大影響任務執行效率，不指定reduce個數的情況下，Hive會猜測確定一個reduce個數，基於以下兩個設定：

hive.exec.reducers.bytes.per.reducer（每個reduce任務處理的數據量，默認為1000^3=1G）

hive.exec.reducers.max（每個任務最大的reduce數，默認為999）

計算reducer數的公式很簡單N=min(參數2，總輸入數據量/參數1)

即，如果reduce的輸入（map的輸出）總大小不超過1G,那麼只會有一個reduce任務；

如：select pt,count(1) from popt_tbaccountcopy_mes where pt = '2018-07-04' group by pt;

/group/p_sdo_data/p_sdo_data_etl/pt/popt_tbaccountcopy_mes/pt=2018-07-04 總大小為9G多，

因此這句有10個reduce

2. 調整reduce個數方法一：

調整hive.exec.reducers.bytes.per.reducer參數的值；

set hive.exec.reducers.bytes.per.reducer=500000000; （500M）

select pt,count(1) from popt_tbaccountcopy_mes where pt = '2018-07-04' group by pt; 這次有20個reduce

3. 調整reduce個數方法二:

set mapred.reduce.tasks = 15;

select pt,count(1) from popt_tbaccountcopy_mes where pt = '2018-07-04' group by pt;這次有15個reduce

4. reduce個數並不是越多越好；

同map一樣，啟動和初始化reduce也會消耗時間和資源；另外，有多少個reduce,就會有多少個輸出文件，如果生成了很多個小文件，那麼如果這些小文件作為下一個任務的輸入，則也會出現小文件過多的問題；

5. 什麼情況下只有一個reduce；

很多時候你會發現任務中不管數據量多大，不管你有沒有設置調整reduce個數的參數，任務中一直都只有一個reduce任務；

其實只有一個reduce任務的情況，除了數據量小於hive.exec.reducers.bytes.per.reducer參數值的情況外，還有以下原因：

沒有group by的彙總，比如把select pt,count(1) from popt_tbaccountcopy_mes where pt = ‘2018-07-04’ group by pt;

寫成 select count(1) from popt_tbaccountcopy_mes where pt = ‘2018-07-04’;

這點非常常見，希望大家儘量改寫。

用了Order by

有笛卡爾積

通常這些情況下，除了找辦法來變通和避免，我暫時沒有什麼好的辦法，因為這些操作都是全局的，所以hadoop不得不用一個reduce去完成；

同樣的，在設置reduce個數的時候也需要考慮這兩個原則：使大數據量利用合適的reduce數；使單個reduce任務處理合適的數據量；

合併小文件

我們知道文件數目小，容易在文件存儲端造成瓶頸，給 HDFS 帶來壓力，影響處理效率。

　　對此，可以通過合併Map和Reduce的結果文件來消除這樣的影響。

　　用於設置合併屬性的參數有：

是否合併Map輸出文件：hive.merge.mapfiles=true（默認值為真）

是否合併Reduce 端輸出文件：hive.merge.mapredfiles=false（默認值為假）

合併文件的大小：hive.merge.size.per.task=256*1000*1000（默認值為 256000000）

Hive優化之小文件問題及其解決方案
小文件是如何產生的
1.動態分區插入數據，產生大量的小文件，從而導致map數量劇增。

2.reduce數量越多，小文件也越多(reduce的個數和輸出文件是對應的)。

3.數據源本身就包含大量的小文件。

小文件問題的影響

1.從Hive的角度看，小文件會開很多map，一個map開一個JVM去執行，所以這些任務的初始化，啟動，執行會浪費大量的資源，嚴重影響性能。

2.在HDFS中，每個小文件對象約佔150byte，如果小文件過多會佔用大量內存。這樣NameNode內存容量嚴重製約了集群的擴展。

小文件問題的解決方案
從小文件產生的途經就可以從源頭上控制小文件數量，方法如下：

1.使用Sequencefile作為表存儲格式，不要用textfile，在一定程度上可以減少小文件。

2.減少reduce的數量(可以使用參數進行控制)。

3.少用動態分區，用時記得按distribute by分區。

對於已有的小文件，我們可以通過以下幾種方案解決：

1.使用hadoop archive命令把小文件進行歸檔。

2.重建表，建表時減少reduce數量。

3.通過參數進行調節，設置map/reduce端的相關參數，如下：

設置map輸入合併小文件的相關參數：

[java] view plain copy

//每個Map最大輸入大小(這個值決定了合併後文件的數量)

set mapred.max.split.size=256000000;

//一個節點上split的至少的大小(這個值決定了多個DataNode上的文件是否需要合併)

set mapred.min.split.size.per.node=100000000;

//一個交換機下split的至少的大小(這個值決定了多個交換機上的文件是否需要合併)

set mapred.min.split.size.per.rack=100000000;

//執行Map前進行小文件合併

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

設置map輸出和reduce輸出進行合併的相關參數：

[java] view plain copy

//設置map端輸出進行合併，默認為true

set hive.merge.mapfiles = true

//設置reduce端輸出進行合併，默認為false

set hive.merge.mapredfiles = true

//設置合併文件的大小

set hive.merge.size.per.task = 256*1000*1000

//當輸出文件的平均大小小於該值時，啟動一個獨立的MapReduce任務進行文件merge。

set hive.merge.smallfiles.avgsize=16000000

3.Write good SQL : 說道sql優化很慚愧，自己sql很爛，不多比比了，但是sql優化確實很關鍵。。。
4.存儲格式：可以使用列裁剪，分區裁剪，orc，parquet等存儲格式。

Hive支持ORCfile，這是一種新的表格存儲格式，通過諸如謂詞下推，壓縮等技術來提高執行速度提升。

對於每個HIVE表使用ORCFile應該是一件容易的事情，並且對於獲得HIVE查詢的快速響應時間非常有益。

作為一個例子，考慮兩個大表A和B（作為文本文件存儲，其中一些列未在此處指定，即行試存儲的缺點）以及一個簡單的查詢，如：

SELECT A.customerID, A.name, A.age, A.address join

B.role, B.department, B.salary

ON A.customerID=B.customerID;

此查詢可能需要很長時間才能執行，因為表A和B都以TEXT形式存儲，進行全表掃描。

將這些表格轉換為ORCFile格式通常會顯著減少查詢時間：

ORC支持壓縮存儲（使用ZLIB或如上所示使用SNAPPY），但也支持未壓縮的存儲。

CREATE TABLE A_ORC (

customerID int, name string, age int, address string

) STORED AS ORC tblproperties (“orc.compress" = “SNAPPY”);

INSERT INTO TABLE A_ORC SELECT * FROM A;

CREATE TABLE B_ORC (

customerID int, role string, salary float, department string

) STORED AS ORC tblproperties (“orc.compress" = “SNAPPY”);

INSERT INTO TABLE B_ORC SELECT * FROM B;

SELECT A_ORC.customerID, A_ORC.name,

A_ORC.age, A_ORC.address join

B_ORC.role, B_ORC.department, B_ORC.salary

ON A_ORC.customerID=B_ORC.customerID;

5.壓縮格式：大數據場景下存儲格式壓縮格式尤為關鍵，可以提升計算速度，減少存儲空間，降低網絡io，磁盤io，所以要選擇合適的壓縮格式和存儲格式，那麼首先就瞭解這些東西。

6.MAP JOIN

MapJoin簡單說就是在Map階段將小表讀入內存，順序掃描大表完成Join。

上圖是Hive MapJoin的原理圖，出自Facebook工程師Liyin Tang的一篇介紹Join優化的slice，從圖中可以看出MapJoin分為兩個階段：

（1）通過MapReduce Local Task，將小表讀入內存，生成HashTableFiles上傳至Distributed Cache中，這裡會對HashTableFiles進行壓縮。

（2）MapReduce Job在Map階段，每個Mapper從Distributed Cache讀取HashTableFiles到內存中，順序掃描大表，在Map階段直接進行Join，將數據傳遞給下一個MapReduce任務。

也就是在map端進行join避免了shuffle。

7.引擎的選擇

Hive可以使用ApacheTez執行引擎而不是古老的Map-Reduce引擎。

我不會詳細討論在這裡提到的使用Tez的許多好處; 相反，我想提出一個簡單的建議：

如果它沒有在您的環境中默認打開，請在您的Hive查詢的開頭將以下內容設置為'true'來使用Tez：

設置hive.execution.engine = tez;

通過上述設置，您執行的每個HIVE查詢都將利用Tez。

目前Hive On Spark還處於試驗階段，慎用。。

8.Use Vectorization

向量化查詢執行通過一次性批量執行1024行而不是每次單行執行，從而提高掃描，聚合，篩選器和連接等操作的性能。

在Hive 0.13中引入，此功能顯著提高了查詢執行時間，並可通過兩個參數設置輕鬆啟用：

設置hive.vectorized.execution.enabled = true;

設置hive.vectorized.execution.reduce.enabled = true;

9.cost based query optimization

Hive 自0.14.0開始，加入了一項”Cost based Optimizer”來對HQL執行計劃進行優化，這個功能通

過”hive.cbo.enable”來開啟。在Hive 1.1.0之後，這個feature是默認開啟的,它可以自動優化HQL中多個JOIN的順序，並

選擇合適的JOIN算法.

Hive在提交最終執行前,優化每個查詢的執行邏輯和物理執行計劃。這些優化工作是交給底層來完成。

根據查詢成本執行進一步的優化，從而產生潛在的不同決策：如何排序連接，執行哪種類型的連接，並行度等等。

要使用基於成本的優化（也稱為CBO），請在查詢開始處設置以下參數：

設置hive.cbo.enable = true;

設置hive.compute.query.using.stats = true;

設置hive.stats.fetch.column.stats = true;

設置hive.stats.fetch.partition.stats = true;

10.模式選擇

本地模式

對於大多數情況，Hive可以通過本地模式在單臺機器上處理所有任務。

對於小數據，執行時間可以明顯被縮短。通過set hive.exec.mode.local.auto=true（默認為false）設置本地模式。

hive> set hive.exec.mode.local.auto;

hive.exec.mode.local.auto=false

並行模式

Hive會將一個查詢轉化成一個或者多個階段。這樣的階段可以是MapReduce階段、抽樣階段、合併階段、limit階段。

默認情況下，Hive一次只會執行一個階段，由於job包含多個階段，而這些階段並非完全互相依賴，

即：這些階段可以並行執行，可以縮短整個job的執行時間。設置參數：set hive.exec.parallel=true,或者通過配置文件來完成。

hive> set hive.exec.parallel;

hive.exec.parallel=false

嚴格模式

Hive提供一個嚴格模式，可以防止用戶執行那些可能產生意想不到的影響查詢，通過設置

Hive.mapred.modestrict來完成

set Hive.mapred.modestrict;

Hive.mapred.modestrict is undefined

11.JVM重用

Hadoop通常是使用派生JVM來執行map和reduce任務的。這時JVM的啟動過程可能會造成相當大的開銷，

尤其是執行的job包含偶成百上千的task任務的情況。JVM重用可以使得JVM示例在同一個job中時候使用N此。

通過參數mapred.job.reuse.jvm.num.tasks來設置。

12.推測執行

Hadoop推測執行可以觸發執行一些重複的任務，儘管因對重複的數據進行計算而導致消耗更多的計算資源，

不過這個功能的目標是通過加快獲取單個task的結果以偵測執行慢的TaskTracker加入到沒名單的方式來提高整體的任務執行效率。

Hadoop的推測執行功能由2個配置控制著，通過mapred-site.xml中配置

mapred.map.tasks.speculative.execution=true

mapred.reduce.tasks.speculative.execution=true

專注於技術熱點大數據，人工智能，JAVA、Python、 C 、GO、Javascript等語言最新前言技術，及業務痛點問題分析，請關注【編程我最懂】共同交流學習。

分享到:

閱讀更多 編程我最懂 的文章

關鍵字: Hadoop HDFS Spark

Hadoop數據倉庫框架-Hive v3.1.2系統架構

hive複雜結構之array,map,struct

三分鐘讀懂hadoop、hbase、hive、spark分佈式系統架構

Hive 熱門數據分析面試題解析

數倉就這麼難嗎？那你可能是缺這兩個：HBase+Hive

《大數據分析教程-Hive》

Hive SQL基本使用詳解

03.05 Hive SQL基本使用詳解

03.04 Hive 基礎知識大補

03.01 Hive JDBC操作

03.01 Hive WordCount實現示例

01.29 Hive 用戶指南 v1.0

01.29 2. HIVE 基本操作

優化 Hive ETL 任務(參數篇)

01.18 優化 Hive ETL 任務(參數篇)

大數據 Hive 筆記大全收藏+轉發+關注

java JDBC連接Impala（impala使用一篇解決）

60TB 數據量的作業從 Hive 遷移到 Spark 在 Facebook 的實踐

12.24 60TB 數據量的作業從 Hive 遷移到 Spark 在 Facebook 的實踐

12.20 Hive 和 Impala的比較

11.24 美團 MySQL 數據實時同步到 Hive 的架構與實踐

Hive 自定UDF函數，生成 32 位隨機數

Hadoop 生態之 MapReduce 及 Hive 簡介

hive的窗口函數

hive 基礎SQL

hive on spark,spark sql 對比測試結果相差很大

知道hive的這些ddl和dml操作語句，離從一個小白變大神就不遠了

【HIVE】不會Java也能操作Hadoop，常用HQL語句，收藏就是賺了。

【HIVE】程序員不會大數據Hadoop？你會SQL語句就學會一半了。

hive日期函數

Apache Hive 聯邦查詢（Query Federation）

Hive 體系

基於 Hive UDF 的機器學習算法工具 Apache Hivemall 薦

一個數據倉庫時代開始——Hive

09.03 我自己總結的Pandas數據分析庫的使用技巧（簡潔）

Hadoop、Hive、Zookeeper、Pig、HBase和Mahout等，都要認真學習

了解hive的默認資料庫：default資料庫

hive分桶表創建表導入數據和刪除數據操作

執行hive存儲過程的hplsql的下載和安裝

SQL使得Hive和SparkSQL使用存儲過程

執行Hive存儲過程的hplsql命令行使用方法

hadoop上gz壓縮格式文件加載到hive表：數據分析87篇

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"